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本 书 以 非常 容易 理解 的 方式 展示 了 数据 挖掘 这 门 新 学 科 : 既是 用 于 训练 新 一 代 实 际 工作 者 
和 研究 者 的 教科 书 ， 同 时 又 能 让 像 我 一 样 的 专业 大 员 受 益 。 Witten 和 Frank 热切 地 追求 简单 而 
优美 的 解决 方案 :他们 将 所 有 的 概念 都 建立 在 具体 实例 的 基础 之 上 ， 促 使 读者 首先 考虑 使 用 简 
单 的 技术 。 如 果 简 单 的 技术 不 足以 解决 问题 ， 再 考虑 提升 到 更 为 复杂 的 高 级 技术 。 


假如 你 需要 对 数据 进行 分 析 和 应 用 ， 本 书 以 及 相关 的 Weka 工 具 包 是 一 个 绝 佳 的 起 步 。 
一 一 摘自 本 书 序 ，Jim Gray (图 灵 奖 获得 者 ) 





正如 所 有 受到 商业 注目 的 新 兴 技 术 一 样 ， 数 据 挖掘 的 运用 也 是 极其 多 样 化 的 。 言 过 其 实 的 报导 
声称 可 以 建立 算法 ， 在 数据 的 海洋 里 发 现 秘密 。 但 事实 上 机 器 学 习 中 没有 魔术 ， 没 有 隐藏 的 力量 ， 
没有 炼金 术 。 有 的 只 是 一 些 可 以 将 有 用 的 信息 从 原始 数据 中 提炼 出 来 的 清晰 明了 的 实用 技术 。 本 书 
叙述 了 这 些 技术 并 展示 了 它们 是 如 何 工作 的 。 

本 书 对 1999 年 的 初版 做 了 重大 的 改动 。 虽 说 核心 概念 没有 变化 ， 但 本 书 做 了 更 新 ， 反 映 出 过 
去 五 年 的 变化 。 新 版 的 重要 部 分 包括 了 30 种 新 的 技术 ; 一 个 加 强 了 互动 界面 的 Weka 机 器 学 习 工 作 
平台 ; 有 关 神 经 网 络 的 完整 信息 ， 一 个 有 关 贝 叶 斯 网 络 的 新 章节 诸如此类， 不 胜 枚 举 。 

本 书 提供 了 机 器 学 习 理论 概念 的 完整 基础 ， 此 外 还 对 实际 工作 中 应 用 的 相关 工具 和 技术 提 了 一 
些 建议 ， 在 本 书 中 你 将 发 现 : 

© 成 功 数据 挖掘 技术 的 核心 算法 一 一 历经 考验 的 真实 技术 及 领先 前 沿 的 方法 。 

e 转换 输入 或 输出 ， 改 善 性 能 的 方法 。 

e 可 下 载 的 Weka 软 件 ， 它 集合 了 能 承担 数据 挖掘 任务 的 机 器 学 习 算法 ， 包 括 对 数据 进行 预 处 

理 、 分 类 、 回 归 、 聚 类 、 关 联 规则 以 及 在 新 的 交互 式 界面 上 的 可 视 化。 





` 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 教 授 ，ACM 和 新 西 兰 皇 - 
Ian H. Witten 。 交 学 会 成 邮 ， 曾 荣获 2004 年 国际 信息 处 理 研究 协会 i 
(IFIP) 颁发 的 Namur 奖 项 。 他 的 著作 包括 《Managing Gigabytes: Compressing and Indexing 
Documents and Images} . «How to Build a Digital Library》 以 及 众多 的 期 刊 和 学 会 文章 。 
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] 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 高 级 讲师 ， 在 机 器 学 习 领域 有 TOW 
Eibe Fran 广泛 的 论文 发 表 ， 是 《Machine Leaming Journal» #1 (Journal “ 
of Artificial Intelligence Research》 的 编 委 。 他 还 是 许多 数据 挖掘 和 机 器 学 习 学 术 会 议 设 计 委 ， 
、 员 会 成 员 ， 也 是 本 书 附属 的 Weka 机 器 学 习 软 件 的 一 位 核心 开发 成 员 。 
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本 书 介绍 数据 挖掘 的 基本 理论 与 实践 方法 。 主 要 内 容 包括 : 各 种 模型 (决策 树 、 关 联 
规则 、 线 性 模型 、 聚 类 、 贝 叶 斯 网 以 及 神经 网 络 ) 以 及 在 实践 中 的 运用 ， 所 存在 缺陷 的 分 
析 。 安 全 地 清理 数据 集 、 建 立 以 及 评估 模型 的 预测 质量 的 方法 ， 并 且 提 供 了 一 个 公开 的 数 
据 挖 据 工 作 平台 Weka。Weka 系 统 拥有 进行 数据 挖 气 任 务 的 图 形 用 户 界面 ， 有 助 于 理解 模型 ， 
是 一 个 实用 并 且 深 受 欢迎 的 工具 。 

本 书 逻 辑 严 窗 、 内 容 翔 实 、 极 富 实 践 性 ， 适 合作 为 高 等 学 校本 科 生 或 研究 生 的 教材 
也 可 供 相关 技术 人 员 和 参考 . 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 化 断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 又 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 人 研究 的 范畴 ， 还 揭 森 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 既 是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 
显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 在 
其 计算 机 科学 发 展 的 几 十 年 间 积 淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 
优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 
真正 的 世界 一流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 图 文 信息 有 限 公 司 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 图 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 村 选 出 Tanenbaum，Stroustrup ，Kernighan， 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 度 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 和 人 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 从 书 ” 之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
RH BARESE”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” ASA A 
“全 美 经 典 学 习 指导 系列 "。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 谢 
北 工 学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 丛 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 定 造 的 。 其 中 许多 教材 均 已 为 M. I.T., Stanford, U.C. Berkeley, C.M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 注 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工 程 、 图 形 学 、 通 信和 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 吉 设 计 者 之 手 、 有 的 历经 三 十 年 而 不 衰 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采 用 。 在 这 些 贺 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 党 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 序 


无 论 是 数字 化 管理 的 需要 还 是 后 工业 化 进程 的 要 求 ， 都 使 我 们 日 益 面 对 以 前 无 法 想像 的 
海量 数据 。 大 型 消费 品 公司 和 商场 的 市 场 部 门 、 信 用 卡 公 司 日 复 -- 日 地 面 对 如 出 的 销售 数据 ， 
绞 尽 脑汁 地 挖 据 其 中 潜在 的 市 场 信和 号， 工业 企业 的 质 管 部 门 则 需要 正确 读 懂 源源 不 断 的 质量 
情况 波动 报表 。 训 无 疑问 ， 理 解 乃 至 最 终 能 够 利用 这 些 数 据 ， 是 值得 认真 对 待 的 问题 。 

本 书 由 新 西 兰 怀 卡 托 大 学 计算 机 科学 系 的 Ian H. Witten 和 Eibe Frank 两 位 专家 集 多 年 的 研 
究 和 教学 成 果 精 心 扎 写 而 成 。 本 书 〈1999 年 初版 ) 以 及 配套 的 Weka 软件 - - 直 受 到 全 世界 读者 
和 用 户 的 好 评 。2004 年 ，Witten 教 授 荣 获 了 国际 信息 处 理 研 究 协会 (IFIP) 颁发 的 Namur 奖 项 ， 
这 是 … 个 两 年 … 度 、 用 于 奖励 那些 在 信息 和 通信 技术 的 社会 应 用 方面 做 出 杰出 贡献 及 具有 国 
际 影响 的 荣誉 奖项 。2005 年 8 月 ， 在 第 11 届 ACM SIGKDD 国 际会 议 上 ， 怀 卡 托 大 学 的 Weka 小 
组 来 获 了 数据 挖 据 和 知识 探索 领域 的 最 高 服务 奖 ，Weka 系 统 得 到 了 广泛 的 认可 ， 被 誉 为 数据 
挖 斤 和 机 器 学 习 广 史上 的 里 程 碑 ， 是 现今 最 完备 的 数据 挖 据 工 具 之 一 (已 有 11 年 的 发 展 历 史 )。 
在 本 书 第 二 版 的 翻译 之 际 ， 我 们 欣喜 地 发 现 ，Weka 的 每 月 下 载 次 数 已 超过 万 次 。 本 书 被 很 多 
大 学 选 作 专 业 教材 ， 并 在 许多 学 术 研 究 文献 中 被 频繁 引用 。 这 些 都 从 侧面 验证 了 本 书 的 杰出 
成 就 。 

本 书 的 . -大 特点 是 能 满足 不 同 程度 的 读者 的 需求 ， 既 有 基本 理论 介绍 义 有 实践 应 用 ， 读 
者 可 以 根据 需要 进行 选读 而 不 失 连 贯 性 。 本 书 作者 Witten 教 授 -再 强调 ， 数 据 挖 掘 及 其 不 可 
或 缺 的 技术 基础 一 一 机 器 学 习 ， 是 一 个 新 兴 的 、 充 满 希 望 的 领域 ， 其 应 用 的 前 景 是 极其 宽广 
的 。 本 书 既 面向 有 一 定 专 业 技 术 基 础 、 想 对 技术 层面 作 全 面 深 入 了 解 的 读者 ， 也 适合 于 技术 
基础 有 限 的 普通 初学 者 。 对 于 初学 者 来 说 ， 要 在 短期 内 尝试 入 门 是 难以 想像 的 ， 然 而 这 部 分 
人 群 也 正 是 本 书 要 服务 的 对 象 。 难 能 可 贵 的 是 本 书 所 述 的 核心 技术 大 都 在 weka 系统 中 得 以 实 
H., 这 不 仅 可 作为 学 习 工 具 ,， 读者 还 可 以 按照 自己 的 需要 使 用 Weka 进 行 数据 分 析 ， 或 在 此 基 
础 上 自行 开发 创新 。 

对 高 等 学 校 的 学 生来 说 ， 本 书 无 疑 是 一 本 逻辑 严密 、 内 容 翔 实 、 极 写实 践 性 的 教科 书 ; 
原本 对 数据 控 据 -无 所 知 或 有 意 了 解 - 番 的 人 们 ,无论 是 证 券 专业 投资 者 还 是 超级 市 场 数据 
分 析 员 ， 甚 至 是 面 对 一 大 扒 彩 票数 据 试图 做 些 什 么 的 业余 爱好 者 ， 相 信 我 们 ， 读 完 这 本 循序 
淘 进 、 例 证 充分 的 入 门 书籍 ， 再 辅 之 以 新 西 兰 怀 卡 托 大 学 免费 下 载 的、 功能 强大 的 Weka 系 统 ， 
成 为 … 个 专业 水 平 的 数据 挖掘 者 绝 非 遥 不 可 及 的 梦想 ! 

我 们 在 翻译 的 过 程 中 ， 时 时 刻 刻 感受 到 Witten 教 授 和 Frank 博 士 的 良 功用 心 和 巨大 付出 。 
他 们 体会 到 了 广大 机 器 学 习 光 在 用 户 的 需求 所 在 ， 在 成 功 地 领导 、 设 计 并 开发 出 Weka 系 统 后 ， 
于 1999 年 出 版 了 此 书 的 第 … 版 。 近 年 来 随 着 数据 挖 据 技 术 的 更 新 和 发 展 ， 经 过 Weka 研 究 小 组 
的 辛勤 工作 ，Weka 软 件 也 日 趋 成 熟 完善 。 两 位 作者 在 5 年 之 后 重新 审视 了 与 Weka 软 件 配套 的 
这 本 著作 ， 推 出 了 第 二 版 。 

本 书 的 翻译 是 集体 完成 的 ， 参 与 翻译 工作 的 有 董 琳 、 印 泉 、 吴 韶 群 、 干 晓 峰 、 孙 立 骏 ， 
都 来 自 中 国 ， 或 是 对 新 西 兰 充满 便 慢 的 新 移民 ， 或 是 负 笈 留学 的 莘 革 学子， 前 而 四 位 译 者 都 
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的 努力 、 希 望 奉 献 给 广大 读者 一 部 忠实 反映 原著 风貌 的 科技 书籍 。 

当然 、 要 翻译 好 - -本 书 并 不 是 - 件 容易 的 事情 ， 我 们 的 水 平 还 很 欠缺， 本 书 的 翻译 一 定 
存在 不 少 问题 ， 还 望 各 位 读者 批评 指教 。 最 后 ， 在 翻译 过 程 中 ，Witten 教 授 和 Frank 博 士 对 我 
们 的 翻译 工作 给 予 了 许多 宝贵 的 建议 和 指导 ，Weka 研 究 小 组 的 成 员 也 对 翻译 工作 给 予 了 很 多 
的 关心 和 支持 ， 我 们 在 此 诚 致谢 意 。 真 诚 希望 广大 中 文 读者 在 读 完 本 书后 ， 会 认可 我 们 在 这 
白云 之 乡 为 大 家 所 尽 的 绵薄 之 力 。 


译 者 
2005 年 9 月 30 日 
于 新 西 兰 





中 文 版 前 言 


Nihau (“你 好 ”应 为 “Nihao”, 一 一 译 者 注 ) ! 有 机 会 为 新 版 的 《数据 挖 据 》 中 文 版 写 
上 三 言 两 语 无 疑 是 很 令 人 高 兴 的 事 。 我 们 中 的 一 位 (lan H. Witten)， 从 30 年 前 算 起 曾 在 武汉 、 
南京 、 北 京 等 处 逗留 过 ， 在 宣 室 几 次 短暂 的 中 国之 行 里 ， 亲 眼目 睹 了 这 个 国家 从 一 个 只 能 被 
描绘 成 Mamahuhu (“马马虎虎 ”一 一 译 者 注 ) 的 基础 上 迅速 发 展 成 拥有 成 熟 和 先进 技术 的 国 
家 。 我 们 俩 人 都 为 本 书 能 对 数据 挖 气 和 机 器 学 习 领 域 的 关键 技术 的 进一步 发 展 做 出 贡献 而 感 
到 欣慰 。 

西方 的 作者 们 时 常 旋 异 于 偶然 发 现 他们 的 书籍 出 现在 中 国 ， 有 时 是 在 中 国 的 再 版 ， 有 时 
是 完全 的 中 文 版 。 若 这 次 不 是 我 们 的 学 生 ， 我 们 也 将 对 此 一 无 所 知 。 许多 年 以 前 ， 有 人 带 来 
一 本 名 为 《海量 数据 管理 》 的 中 文 版 书籍 ， 我 们 俩 中 的 一 位 是 此 书 的 作者 之 一 。 令 人 遗憾 的 
是 ， 这 个 翻译 本 没有 被 很 好 地 审 校 ， 最 为 突出 的 一 个 严重 错误 是 该 书 的 封面 上 只 出 现 了 一 位 
作者 的 名 字 一 一 实际 上 另 两 位 作者 在 书 中 的 任何 部 分 都 没有 提 到 ! 大 家 可 以 想像 一 下 他 们 的 
感受 。 

遇 到 执著 如 一 的 学 生 是 做 学 问 的 巨大 快乐 之 一 。 大 约 18 个 月 以 前 ， 我 们 的 研究 生 给 我 们 
看 了 《数据 控 据 》 一 书 在 中 国 的 再 版 。 我 们 吃惊 不 已 一 一 更 让 我 们 吃惊 的 是 随 着 课程 的 进展 ， 
他 们 打算 将 此 书 翻译 成 中 文 。 当 时 ， 我 们 的 第 二 版 即将 完成 ， 我 们 因此 能 有 机 会 将 中 文 的 翻 
译 工 作 托付 给 我 们 -- 直 以 来 了 解 和 可 信赖 的 人 。 

也 许可 以 给 作者 的 最 大 的 肯定 莫 过 于 为 他 们 的 作品 做 艰辛 的 翻译 。 我 们 深 深 地 、 真 诚 地 
感 数 我 们 的 学 生 和 朋友 : 董 琳 、 印 泉 、 于 晓 峰 、 吴 部 群 和 孙 立 骏 。 感 谢 他 们 为 此 所 付出 的 大 
量 时 间 和 巨大 努力 。Xiexie (“谢谢 ”一 一 译 者 注 )! 我们 知道 他 们 已 经 理解 掌握 了 书 中 的 内 


容 ， 因 为 他 们 指出 了 英文 版 中 的 一 些 隐 藏 的 错误 ， 并 且 向 我 们 提出 了 -一 些 尖锐 的 、 使 我 们 难 


以 回答 的 问题 。 
希望 你 们 能 够 得 益 于 他 们 的 努力 。 


英文 原文 

Nihau! It is a great pleasure to have the opportunity to write a few words for this new 
Chinese edition of Data Mining. During a few all-too-short visits to China, beginning thirty 
years ago with sojourns in Wuhan, Nanjing and Beijing, one of us (THW) has seen the 
country blossom in technical maturity and sophistication from a base that all those years ago 
can only be described as mamahuhu. We are both delighted that our book will contribute to 
further extended growth in the key technologies of data mining and machine learning. 

Western authors are often bemused by occasional sightings of their books in China, 
sometimes reprints, sometimes complete Chinese editions. We would never know about them 


were it not for our students. Many years ago someone brought in a Chinese version of a book, 
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co-authored by one of us entitled Managing Gigabytes. Embarrassingly, this translation 
had not been properly checked, and a devastatingly prominent error was that only one 
author's name appeared on the cover of the book-indeed the other two were not mentioned 
anywhere inside either! You can imagine how they felt. 

Dedicated and committed students are one of the greatest pleasures of being an 
academic. About eighteen months ago members of our graduate course showed us a reprint of 
Data Mining that had been produced in China. We were astonished-even more so because as 
the course progressed they conceived the idea of actually translating the book into Chinese. 
At that time we were just completing the second edition, which gave the opportunity of 
having a Chinese translation by reliable people who we knew well that was bang up to date. 

Perhaps the greatest compliment anyone can pay an author is to painstakingly translate 
their work for them. We are deeply and sincerely grateful to our students and good friends 
Lin Dong, Quan Qiu, Xiaofeng Yu, Shaoqun Wu and Lijun Sun for the tremendous amount 
of time and energy they have put into this project. Xiexie! We know they have mastered the 
material because they point out obscure errors in the English edition and ask us penetrating 
questions that we are hard pressed to answer ourselves. 

We hope you will benefit from their efforts. 


lan H. Witten 


Eibe Frank, 
200544127178 
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技术 的 发 展 让 我 们 能 够 捕获 和 存储 大 量 的 数据 。 在 这 些 数据 集中 寻找 模式 、 趋 势 和 异常 
之 处 ， 并 且 以 简单 的 数量 模型 归纳 之 ， 是 当今 信息 时 代 的 巨大 挑战 之 一 一 一 将 数据 转化 为 信 
息 ， 将 信息 转化 为 知识 。 

数据 控 掘 和 机 器 学 习 已 获得 了 令 人 频 目 结 香 的 进步 。 统 计 学 、 机 器 学 习 、 信 息 理 论 以 及 
计算 技术 的 有 机 结合 ， 创 建 了 一 门 具备 坚实 数学 基础 和 强大 工具 的 完备 科学 。Witten 和 Frank 
在 本 书 中 展示 了 这 个 进展 的 许多 方面 ， 辅 之 以 关键 算法 的 实现 。 因 此 ， 这 是 数据 挖掘 、 数 据 
分 析 、 信 息 理论 以 及 机 器 学 习 多 方 结合 的 一 个 里 程 碑 。 如 果 你 在 过 去 的 十 年 里 未 能 追随 这 个 
领域 〈 的 进步 )， 本 书 是 赶 上 这 个 激动 人 心 的 进展 的 绝 好 机 会 。 如 果 你 一 直 与 该 领域 同步 ， 那 
么 由 Witten 和 Frank 所 撰写 的 本 书 及 配套 的 开源 工作 平台 Weka ， 可 以 成 为 你 的 工具 箱 的 有 用 
补充 。 

本 书展 示 了 自动 从 数据 中 提取 模型 ， 然 后 验证 这 些 模型 的 基本 理论 。 非 常 出 色 地 解释 了 
各 种 模型 (决策 树 、 关 联 规 则 、 线 性 模型 、 聚 类 、 贝 叶 斯 网 以 及 神经 网 )， 以 及 如 何在 实践 中 
运用 它们 。 在 这 个 基础 上 ， 讲解 了 各 种 方法 的 实施 步骤 以 及 所 存在 的 缺陷 。 解 释 了 如 何 安全 
地 清理 数据 集 、 如 何 建立 模型 ， 以 及 如 何 评 估 模 型 的 预测 质量 。 本 书 的 大 部 分 是 教学 指导 ， 
但 第 三 部 分 则 爹 面 地 描述 了 系统 是 如 何 工 作 的 ， 并 且 引 导读 者 游历 了 作者 们 在 网 站 上 提供 的 
-个 公开 的 数据 挖掘 工作 平台 。 这 个 Weka 工 作 平台 拥有 一 个 引导 读者 进行 数据 挖掘 任务 的 图 
形 用 户 界 面 ， 并 拥有 出 色 的 、 有 助 于 理解 模型 的 可 视 工 具 。Weka 系 统 本 身 是 一 个 有 用 并 深 受 
欢迎 的 工具 ， 同 时 又 是 对 本 书 的 一 个 绝 佳 补充 。 

本 书 以 非常 容易 理解 的 方式 展示 了 这 门 新 的 学 科 : 既是 用 来 训练 新 一 代 实 际 工 作者 和 研 
究 者 的 教科 书 ， 同 时 又 能 让 像 我 这 样 的 专业 人 员 受 益 。Witten 和 Frank 热 囊 于 简单 而 优美 的 解 
决 方案 。 他 们 对 每 个 主题 都 采用 这 样 的 方法 ， 用 具体 的 实例 来 讲解 所 有 的 概念 ， 促 使 读者 首 
先 考 虑 简单 的 技术 ， 当 简单 的 技术 不 足以 解决 问题 时 ， 便 提升 到 更 为 复杂 的 高 级 技术 。 

如 果 你 对 数据 库 有 兴趣 、 并 且 对 机 器 学 习 方面 所 知 其 少 ， 本 书 无 疑 是 赶 上 这 个 激动 人 心 的 
技术 进步 的 好 机 会 。 如 果 你 有 数据 要 分 析 和 理解 ， 本 书 和 所 附 的 Weka 工 具 将 是 -- 个 绝 佳 的 起 步 。 


Jim Gray, RARE 
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计算 和 通讯 的 结合 建立 了 一 个 以 信息 为 源 的 新 领域 。 但 绝 大 多 数 信息 尚 处 于 它 的 原始 状 
: 数据 。 假 如 数据 被 定性 为 记录 下 的 事实 ， 那 么 信息 就 是 构成 数据 基础 的 一 系列 模式 或 期 
。 在 数据 库 中 有 大 量 信息 被 锁定 ， 即 那些 具有 潜在 重要 性 ， 但 尚未 被 发 现 和 表达 出 来 的 信 
。 我 们 的 任务 就 是 要 将 它们 揭示 出 来 。 

数据 挖掘 是 将 隐 含 的 、 尚 不 为 人 所 知 的 ， 同 时 又 是 六 在 有 用 的 信息 从 数据 中 提取 出 来 ， 
建立 计算 机 程序 ， 自 动 在 数据 库 中 细 察 ， 以 发 现 规律 或 者 模式 。 假 如 有 明显 的 模式 被 发 现 ， 
将 可 能 被 归纳 以 对 未 来 的 数据 做 出 准确 的 预测 。 当 然 ， 问 题 还 是 会 有 的 ， 许 多 模式 可 能 是 陈 
腐 或 是 没有 意义 的 。 男 有 一 些 是 虚假 的 ， 是 由 于 某 些 具体 数据 集 的 偶然 巧合 而 产生 的 。 在 现 
实生 活 中 数据 是 不 完美 的 : 有些 部 分 遭 到 算 改 ， 有 些 会 玉 失 。 所 有 发 现 的 东西 都 是 不 精确 的 : 
任何 规律 都 有 例外 ， 任 何事 例 都 有 规律 所 不 能 覆盖 到 的 情况 。 算 法 必须 稳健 得 足以 应 付 不 完 
美的 数据 ， 提 取出 不 精确 但 有 用 的 规律 。 

机 器 学 习 为 数据 挖掘 提供 了 技术 基础 ， 用 于 将 信息 从 数据 库 的 原始 数据 中 提取 出 来 ， 以 
可 以 理解 的 形式 表达 ， 并 可 以 用 作 多 种 用 途 。 这 是 -… 个 抽象 的 过 程 : 取得 数据 ， 据 实地 推导 
出 数据 的 结构 。 本 书 将 介绍 在 数据 挖 据 实 践 中 ， 用 以 发 现 和 描述 数据 中 的 结构 模式 而 采用 的 
机 器 学 习 工 共和 技术 。 

就 像 所 有 新 前 发 的 技术 会 得 到 强烈 的 商业 关注 --- 样 ， 数 据 挖掘 的 运用 也 受到 大 量 的 技术 
或 大 众 出 版 社 的 追捧 。 夸 大 其 实 的 报道 声称 可 以 建立 学 习 算 法 在 数据 的 海洋 中 邀 游 来 发 现 秘 
密 。 但 机 器 学 习 中 绝 没 有 什么 神奇 、 隐 藏 的 力量 ， 没 有 炼金 术 。 相 反 ， 有 的 只 是 一 些 确实 的 、 
简单 实用 的 技术 ， 能 将 有 用 的 信息 自 原始 数据 中 提取 出 来 。 本 书 介绍 了 这 些 技术 并 展示 了 它 
们 是 如 何 工作 的 。 

我 们 将 机 器 学 习 解 释 为 从 样本 中 得 到 结构 性 的 描述 。 这 种 描述 用 于 预测 、 解 释 和 理解 。 
有 些 数 据 挖掘 应 用 着 重 于 预测 : 从 数据 所 描述 的 过 去 ， 预 测 将 来 在 新 的 情况 下 将 会 发 生 什么 ， 
通常 是 猜测 新 的 样本 分 类 。 但 我 们 同样 感 兴趣 ， 也 许 更 感 兴趣 的 是 “学 习 ” 的 结果 是 一 个 可 
以 用 来 对 样本 进行 分 类 的 真实 结构 描述 。 这 种 结构 描述 不 仅 支持 预测 ， 也 支持 解释 和 理解 。 
根据 我 们 的 经 验 ， 在 绝 大 多 数 数据 挖 据 实 践 应 用 中 ， 用 户 最 感 兴趣 的 莫 过 于 取得 对 样本 实质 
的 把 握 。 事实 上 ， 这 是 机 器 学 习 优 和 于 传统 的 统计 模型 的 一 个 主要 优点 。 

本 书 解释 了 许多 种 机 器 学 习 方 法 ， 有 些 是 出 于 教学 目的 ， 仅 仅 罗 列 了 纲要 以 解释 清楚 基 
本 的 原理 。 其 他 的 则 是 实际 中 的 、 现 在 正 运用 于 实际 工作 的 系统 。 许 多 方法 是 时 新 的 ， 在 近 
几 年 中 发 展 起 来 的 。 

我 们 创建 了 一 个 以 Java 语 言 编写 的 完整 的 软件 资源 ， 用 以 说 明 本 书 中 的 思想 。 软 件 的 全 
名 是 怀 卡 托 智能 分 析 环 境 (Waikato Environment for Knowledge Analysis), 简称 wekae ， 它 
的 源 代码 可 通过 国际 互联 网 www.cs.waikato.ac.nz/ml/weka 得 到 。 它 几乎 完全 产业 化 地 实现 了 本 
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书 中 介绍 的 所 有 技术 。 它 包括 机 器 学 习 方 法 的 说 明 性 代码 和 实现 技术 。 针 对 一 些 简单 技术 ， 
提供 了 清楚 而 简洁 的 实现 ， 这 些 简单 技术 的 设计 目的 是 为 了 帮助 理解 机 器 学 习 中 的 运作 机 制 。 
Weka 还 提供 了 一 个 工作 平台 ,完整 、 实 用 、 高 水 准 地 突现 了 许多 流行 的 学 习 方 案 ， 这 些 方 案 
能 够 直接 运用 于 实际 的 数据 挖 据 或 研究 领域 。 最 后 它 提供 了 一 个 Java 类 库 形 式 的 框架 。 这 个 
框架 支持 供 入 式 机 器 学 习 的 应 用 ， 乃 至 新 的 学 习 方案 的 实现 。 

本 书 的 目的 是 介绍 用 于 数据 挖掘 的 机 器 学 习 工 具 和 技术 。 读 完 本 书后 ， 你 将 了 解 这 些 技 
术 ， 并 体会 它们 的 功效 和 可 应 用 性 。 如 果 你 希望 用 自己 的 数据 加 以 实践 ， 用 Weka 软件 能 轻易 
地 做 到 。 

本 书 跨越 了 商业 书籍 上 提供 的 -- 些 在 数据 挖掘 研究 案例 里 非常 实际 的 方法 和 当前 机 器 学 
习 教 科 书 中 的 以 理论 为 主 的 阐述 之 间 存 在 的 鸿沟 (在 第 1! 章 最 后 的 补充 读物 里 简要 介绍 了 这 些 
书 )。 这 个 鸿沟 是 相当 大 的 。 为 了 让 机 器 学 习 的 技术 运用 得 富有 成 果 ， 需 要 理解 它们 是 如 何 工 
作 的 。 这 不 是 :种 可 以 宜 目 应 用 而 后 期 待 好 结果 出 现 的 技术 。 不 同 的 问题 要 应 用 不 同 的 技术 ， 
但 是 哪些 技术 更 适合 某 种 特定 情况 却 不 明显 : 需要 知道 有 可 能 的 解决 方案 的 范围 。 我 们 所 论 
及 的 技术 范围 非常 广泛 ， 这 是 因为 和 其 他 商业 书籍 不 同 ， 本 书 无 意 推销 某 种 特定 的 商业 软件 
或 方案 。 我 们 列举 了 大 量 的 例子 ,但 是 在 例子 中 所 应 用 的 数据 集 却 小 得 足以 跟踪 每 一 步 的 进 
展 。 真 实 的 数据 集 太 大 ， 不 能 做 到 这 -点 (而且 通 常 包含 商业 秘密 )。 我 们 选择 的 数据 集 没有 
展示 大 型 数据 集 的 实际 问题 、 但 能 够 帮助 你 理解 不 同 技术 的 作用 ， 它 们 是 如 何 工 作 和 的， 以 及 
它们 的 应 用 范围 是 什么 。 

本 书面 向 对 实际 工作 中 的 数据 挖掘 所 包含 的 原理 和 方法 感 兴 趣 的 、 并 有 技术 基础 的 普通 
读者 ， 同 样 适用 于 需要 获得 这 方面 新 技术 的 信息 专家 ， 以 及 所 有 希望 从 技术 层面 具体 理解 机 
器 学 习 包 含 什么 的 读者 。 本 书 也 是 为 有 着 -- 般 兴趣 的 信息 系统 的 实际 工作 者 们 所 写 ， 例 如 : 
程序 员 、 咨 询 顾问 、 开 发 人 员 、 信 息 技术 管理 员 、 规 范 编写 者 ， 专 利 审核 者 、 好 奇 的 业余 爱 
好 者 ， 以 及 学 生 和 教授 。 他 们 需要 一 本 拥有 大 量 实例 且 简单 易 读 的 有 关机 器 学 习 主要 技术 是 
什么 ， 它 们 做 什么 ， 如 何 运用 它 ， 以 及 它们 是 如 何 工 作 的 书 。 本 书面 向 实际 ， 重 点 突出 “如 
何 做 ”， 同 时 包括 许多 算法 、 代 码 和 实现 。 所 有 在 实际 工作 中 进行 数据 挖掘 的 读者 将 直接 得 益 
于 书 中 统 述 的 技术 。 本 书目 的 是 帮助 试图 穿越 夸大 其 词 的 宣传 找 出 机 器 学 习 真 谤 的 人 们 ， 也 


将 帮助 需要 可 行 的 、 非 学 术 的 、 值 得 信赖 的 方案 的 人 们 。 我 们 避免 了 对 理论 和 数学 知识 方面 : 


的 特殊 要 求 ， 在 页 边 用 浅 灰 色 条 形 所 标记 的 内 容 是 可 选 部 分 ， 通 常 是 为 了 照顾 对 理论 和 技术 
感 兴趣 的 读者 ， 跳 过 这 部 分 内 容 不 会 对 整体 的 连贯 性 有 任何 影响 。 

本 书 分 为 几 个 层次 ， 使 其 既 适 合 对 基本 概念 感 兴趣 的 读者 的 需要 ， 也 能 适合 想 深 入 详尽 
地 了 解 、 和 掌握 所 有 技术 细节 的 读者 的 需要 。 我 们 相信 机 器 学 习 的 消费 者 们 需要 更 多 地 了 解 他 
们 运用 的 算法 如 何 工 作 。 我 们 常常 可 以 看 到 ， 优 秀 的 数据 模型 与 它 的 诠释 者 是 分 不 开 的 ， 诠 
释 者 需要 知道 模型 是 如 何 产生 的 ， 从 而 感知 这 个 模型 的 长 处 和 局 限 性 。 当 然 ， 并 非 所 有 的 使 
用 者 都 有 必要 对 算法 的 精妙 之 处 有 很 深入 的 理解 。 

我 们 把 机 器 学 习 方 法 的 详尽 阐述 处 理 为 几 个 连续 部 分 。 最 顶层 ， 也 就 是 前 三 章 ， 读 者 将 
学 习 到 基本 理论 。 第 1 章 通过 一 些 例子 来 说 明 机 器 学 习 是 什么 ， 它 能 用 在 什么 地 方 。 同 时 提供 
了 一 些 真实 的 实际 应 用 。 第 2、3 章 叙述 了 不 同 的 输入 和 输出 ， 或 者 称 之 为 知识 表达 
(knowledge representation )。 不 同 的 输出 要 求 不 同 的 算 靶 。 在 下 -- 层 的 第 4 章 ， 介 绍 了 机 器 学 
习 的 基本 方法 ， 已 简化 以 方便 理解 。 这 里 原理 的 给 出 奉 涉 到 许多 算法 ， 但 没有 涉及 到 算法 所 
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包含 的 复杂 的 细节 和 精妙 的 实现 方案 。 为 了 从 机 器 学 习 技术 的 应 用 升级 到 解决 具体 的 数据 控 
据 问 题 上 ， 必 须 对 机 器 学 习 的 效果 有 一 个 评估 。 第 5 章 可 以 单独 进行 阅读 。 它 能 帮助 读者 评估 
从 机 器 学 习 中 得 到 的 结果 ， 解 决 性 能 评估 中 出 现 的 某 些 复杂 的 问题 。 

在 最 底层 也 是 最 详细 的 一 层 ， 第 6 章 完全 详尽 地 揭示 了 实现 整 系列 机 器 学 习 算法 的 步骤 ， 
以 及 在 实际 应 用 中 为 了 更 好 工作 所 必需 的 、 较 为 复杂 的 部 分 。 尽 管 一 些 读者 也 许 想 忽略 这 部 
分 的 具体 内 容 ， 但 只 有 到 这 一 层 ， 我 们 才 涉 及 到 完整 的 、 可 运作 的 、 并 经 过 测试 的 机 器 学 习 
的 Weka 实 现 方 案 。 第 7 章 讨论 了 -- 些 涉及 机 器 学 习 输 入 的 实际 问题 。 例 如 : 选择 和 离散 属性 ， 
这 里 我 们 谈 到 几 个 更 高 级 的 技术 来 提炼 和 组 合 从 不 同学 习 技 术 得 出 的 结果 。 第 一 部 分 的 最 后 
- 章 是 展望 未 来 的 发 展 趋势 。 

本 书 叙 述 了 在 实际 工作 中 的 绝 大 多 数 机 器 学 习 方 法 。 但 是 ， 没 有 涉及 到 加 强 学 习 
(reinforcement learning ) ， 因 为 这 在 实际 的 数据 挖掘 中 极 少 应 用 ， 也 没有 包括 遗传 算法 
(genetic algorithm ) ， 因 为 它 仅 仅 是 一 个 优化 技术 ; 同样 也 没有 包含 关系 学 习 (relational 
learning) 和 归纳 逻辑 程序 设计 (inductive logic programming )， 因 为 它们 很 少 被 主流 数据 控 
据 应 用 采纳 。 

阐明 本 书 思想 的 数据 挖掘 系统 在 第 二 部 分 ， 这 是 为 了 清楚 地 把 理论 部 分 和 从 实践 角度 如 
何 使 用 区 分 开 来 。 如 果 你 急于 分 析 你 的 数据 ， 不 想 被 技术 细节 所 困扰 ， 可 以 直接 从 第 4 章 跳 到 
第 二 部 分 。 

选 定 Java 来 实现 本 书 的 机 器 学 习 技术 ， 是 因为 作为 面向 对 象 的 编程 语言 ， 它 允许 用 统一 
的 界面 进行 学 习 方 案 和 方法 的 前 期 和 后 期 处 理 。 用 Java 取 代 C++，Smalltalk 或 者 其 他 面向 对 
象 的 语言 是 因为 用 Java 编 写 的 程序 能 够 运行 在 大 部 分 计算 机 上 ， 而 不 需要 重新 进行 编译 ， 
或 复杂 的 安装 过 程 ， 或 者 最 坏 的 情形 ， 需 要 修改 源 代 码 。Java 程 序 编译 成 字 节 码 后 ， 能 运行 
在 任何 安装 了 适当 解释 器 的 计算 机 上 。 这 个 解释 器 称 为 Java 虚 拟 机 。Java 虚 拟 机 和 Java 编 译 器 
能 免费 用 于 所 有 重要 平台 。 

像 所 有 广泛 运用 的 编程 语言 一 样 ，Java 也 受到 过 批评 。 虽 说 本 书 无 意 对 此 说 三 道 四 ， 有 
些 批 评 无 疑 是 正确 的 。 无 论 如 何 ， 在 所 有 的 现 有 可 供 选 择 的 、 能 得 到 广泛 支持 的 、 标 准 化 的 
及 拥有 详尽 文档 的 编程 语言 中 ，Java 似 乎 是 本 书 的 最 佳 选 择 。 它 主要 的 不 足 是 它 的 运行 速度 ， 
或 者 说 它 在 速度 上 有 缺陷 。 由 于 执行 前 ， 虚 拟 机 先 要 把 字 节 码 翻 译 成 机 器 编码 ， 执 行 一 个 
Java 程 序 要 比 相 应 的 用 C 语 言 编写 的 程序 慢 好 几 倍 。 如 果 虚 拟 机 用 一 个 即时 编译 器 ， 根 据 我 们 
的 经 验 ， 结果 要 慢 -一 到 五 倍 。 即 时 编译 器 将 整个 字 节 码 块 翻译 成 机 器 编码 ， 而 不 是 一 个 接 一 
个 地 翻译 字 节 码 ， 所 以 它 的 运行 速度 能 够 得 到 大 幅度 的 提高 。 如 果 对 于 你 的 应 用 来 说 ， 这 个 
速度 依然 很 慢 ， 有 些 编译 器 能 够 跳 过 字 节 码 这 一 步 ， 直 接 将 Java 程 序 转换 成 机 器 编码 。 当 然 
这 种 编码 不 能 运行 在 其 他 平台 上 ， 以 至 于 牺牲 了 Java 的 一 个 最 大 的 优势 。 


更 新 和 改写 过 的 部 分 


我 们 在 1999 年 完成 了 本 书 的 第 -版 。 现 在 ，2005 年 4 月 ， 我 们 正在 对 本 书 的 第 二 版 进行 润 
饰 。 数 据 挖 据 和 机 器 学 习 领 域 在 这 些 年 中 已 瑟 成 熟 。 虽 说 在 这 一 版 中 基本 的 核心 材料 没有 发 
生变 化 ， 但 我 们 还 是 尽 可 能 地 利用 这 个 机 会 更 新 内 容 ， 使 它 能 反映 过 去 五 年 中 的 变化 。 当 然 ， 
也 有 错误 要 更 正 ， 我 们 已 将 错误 收 在 可 以 公开 查询 的 勘误 表 中 。 事 实 上 ， 虽 说 发 现 的 错误 少 
得 惊人 ， 我 们 还 是 希望 在 第 二 版 中 错误 会 更 少 (第 二 版 的 勘误 表 可 以 从 本 书 的 主页 
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http://www. cs.waikato.ac.nz/ml/weka/book.himl 中 得 到 )。 我 们 已 从 整体 上 对 材料 进行 了 编辑 ， 
使 这 本 书 跟 上 时 代 ， 征 引文 献 的 数量 翻番 。 那 些 最 吸引 人 的 部 分 也 已 加 入 了 新 的 材料 ， 下 面 

应 广泛 要 求 ， 我们 对 神经 网 络 部 分 进行 了 全 面 的 补充 ， 在 4.6 节 里 增加 了 感知 器 
(perceptron) 以 及 和 它 密切 相关 的 Winnow 算法 ; 6.3 节 里 增加 了 多 层 感 知 器 (multilayer 
perceptron) 和 反 向 传播 (backpropagation ) 算法 。 我 们 对 使 用 核 感知 器 (kernel perceptron) 
和 径 向 大 晴 数 网 络 (radial basis function network) 得 到 非 线 性 决策 边界 的 实现 方法 补充 了 最 
新 的 内 容 。 同 样 应 读者 的 要 求 ， 对 贝 叶 斯 网 络 部 分 增加 了 一 个 新 的 章节 。 描 述 了 如 何 基于 这 
些 网 络 来 学 习 分 类 器 ， 以 及 如 何 用 AD 树 来 有 效 地 实现 。 

本 书 第 -- 版 中 所 采用 的 Weka 工 作 平台 已 经 广泛 地 使 用 并 受到 普遍 的 欢迎 。 它 现在 有 了 -一 
个 交互 式 界面 ， 令 人 耳目 - :新 ， 或 者 说 是 由 三 个 独立 的 交互 界面 组 成 ， 使 用 方便 许多 。 其 中 
最 卡 要 的 交互 界面 是 Expilorer 界 面 。 用 户 可 以 通过 菜单 选择 和 表单 填写 形式 来 访问 Weka 的 所 
有 工具 。 男 外 一 个 是 Knowledge Flow 界 面 ， 用 户 可 以 设计 对 数据 流 处 理 的 配置 。 还 有 一 个 是 
Experimenter 界 面 ,用户 可 以 对 -- 组 数据 集 应 用 不 同 参数 设置 的 机 器 学 习 算 法 来 建立 自动 测试 、 
收集 测试 结果 的 统计 数据 ， 并 对 结果 做 重要 性 测试 。 这 些 界面 为 成 为 一 个 数据 挖 抉 实际 工作 
者 降低 了 门槛 。 在 书 中 我 们 给 出 了 如 何 运 用 这 些 界 面 的 详细 说 明 。 当 然 ， 这 本 书 可 以 离开 
Weka 软 件 单 独 使 用 。 为 了 强调 这 一 点， 我 们 把 所 有 有 关 工 作 台 的 内 容 单 独 放 在 本 书 最 后 的 第 
一 部 分 介绍 。 

Weka 数 据 挖 括 的 功效 在 过 去 五 年 里 不 仅 变 得 日 益 方便 ， 也 日 渐 强 大 和 和 成熟。 如 今 ， 它 集 
合 了 空前 数量 的 机 器 学 习 算 法 和 相关 技术 。 它 的 发 展 既 是 被 这 个 领域 的 发 展 所 推动 ， 也 受到 
了 用 户 和 需求 的 推动 。 我 们 相当 了 解数 据 控 掘 的 实际 工作 者 们 在 想 什 么 。 新 版 本 应 该 包括 哪 
些 内 容 ， 我 们 在 这 方面 的 体验 是 值得 和 盘 托 出 的 。 

前 几 章 介绍 了 … 些 概要 的 基础 内 容 ， 相 对 来 说 内 容 改动 较 少 。 在 第 1 章 里 ， 我 们 增加 了 一 
些 具 体 领域 的 应 用 例子 。 在 第 2 章 里 增加 了 有 关 新 的 稀疏 数据 和 一 些 有 关 字 符 串 属性 和 日 期 属 
性 的 内 容 。 第 3 章 增加 了 对 交互 式 决策 树 结 构 的 介绍 ， 这 是 一 种 有 用 并 有 启发 性 的 技术 ， 教 你 
如 何 对 自己 的 数据 手工 建立 一 个 决策 树 。 

第 4 章 除 了 介绍 分 类 的 线性 决策 边界 ， 神 经 网 络 的 基础 知识 外 ， 还 包括 -- 个 新 的 内 容 : 应 
用 于 文档 分 类 的 多 项 贝 叶 斯 模型 和 iogistic 回 归 。 在 过 去 的 五 年 ， 很 多 人 对 基于 文本 的 数据 控 
据 很 感 兴趣 .我 们 在 第 2 章 介 绍 字 符 串 属性 ， 在 第 4 章 介 绍 了 用 于 文档 分 类 的 多 项 贝 叶 斯 法 ， 
在 第 7 章 介 绍 了 文本 的 转换 。 第 4 章 介绍 了 许多 关于 寻找 实例 空间 的 高 效 数据 结构 的 新 知识 ， 
kD 树 和 新 近 开 发 的 球 树 。 这 两 个 数据 结构 用 来 高 效 地 找 出 最 近邻 数据 ， 同 时 能 加 速 基于 距离 

第 5 章 叙 述 了 机 器 学 习 的 统计 评估 原则 ， 没 有 什么 改变 。 主 要 的 增加 ， 除 了 用 于 评估 预测 
功效 的 Kappa 统 计量 的 -个 注解 外 ， 就 是 成 本 敏感 学 习 的 更 多 详细 对 策 。 我 们 描述 如 何 运 用 分 
类 器 ， 在 不 劳 虑 成 本 的 情况 下 做 成 本 敏感 的 预测 ， 或 者 在 训练 过 程 中 将 成 本 考虑 进来 ， 建 立 
-个 成 本 敏感 模型 。 我 们 也 论 及 了 流行 的 成 本 曲线 的 新 技术 。 

第 6 章 有 几 处 增加 ， 除 了 上 面 提 到 的 有 关 神 经 网 络 和 贝 叶 斯 网 分 类 器 的 内 容 外 ， 也 为 成 功 
的 RIPPER 规则 学 习 器 所 运用 的 试探 法 提供 了 更 多 的 活生生 的 细节 。 我 们 描述 了 如 何 利用 模型 
树 为 数值 预测 建立 规则 。 展 示 了 如 何 将 局 部 加 权 回 归 运 用 到 分 类 问题 中 。 最 后 ， 叙 述 了 X 均 值 
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聚 类 算法 ， 这 是 对 传统 人 均值 算法 的 一 个 巨大 改进 。 

有 关 输 入 输出 的 第 7 章 改动 最 多 ， 因 为 这 方面 是 近来 机 器 学 习 实践 发 展 的 重点 。 我 们 摘 绘 
了 新 的 属性 选择 方案 ， 例 如 特征 搜索 和 支持 向 量 机 的 使 用 ; 以 及 新 的 组 合 模 型 技术 如 从 加 回 
归 、 愉 加 iogistic 同 归 、logistic 模 型 树 以 及 选择 树 等 等 。 完 整地 阐述 了 LogitBoost (在 首 版 中 
提 到 过 但 未 能 解释 )。 新 增加 了 节 关 于 有 用 的 数据 转换 的 内 容 ， 包 括 重要 部 分 分 析 以 及 文本 
挖掘 和 时 间 序 列 的 转换 。 我 们 还 涉及 了 在 利用 没有 标签 数据 来 改进 分 类 ， 包 括 联合 训练 和 co- 
EM 方法 方面 的 最 新 进展 。 

新 版 重 写 了 第 -部 分 的 最 后 一 章 有 关 新 的 发 展 方向 和 不 同 的 远景 ， 以 跟 上 时 代 的 步伐 ， 
现在 它 包 括 了 诸如 对 抗 性 学 习 及 无 处 不 在 的 数据 挖掘 等 新 挑战 。 
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第 1 章 A 论 


人 工 受精 的 过 程 是 从 妇女 的 卵巢 中 收集 卵子 ， 在 与 丈夫 或 捐赠 人 的 精液 结合 后 产生 胚胎 ， 
然后 从 中 选择 儿 个 移植 到 妇女 的 子 官 里 。 关 键 是 要 选 出 那些 存活 可 能 性 最 大 的 胚胎 。 选 择 根 
据 60 个 左右 胚胎 特征 的 记录 做 出 ， 这 些 特征 包括 它们 的 形态 、 卵 母 细 胞 、 滤 泡 和 精液 样品 。 
特征 属性 的 数量 非常 大 ， 胚 胎 学 家 很 难 同时 对 所 有 属性 进行 评估 , 并 结合 历史 数据 得 出 最 终结 
Ys: 这 个 胚胎 是 否 能 够 产生 一 个 活 的 婴儿 。 在 英格兰 的 一 个 研究 项 目 中 ， 研 究 者 探索 运用 机 
器 学 习 技术 ， 使 用 胚胎 训练 数据 的 历史 记录 和 结果 ， 来 做 出 这 个 选择 。 

每 年 ， 新 西 兰 奶牛 场 主 都 要 面临 艰难 的 商业 决策 : 哪些 牛 应 该 留 在 收场 ， 哪 些 需要 卖 到 
必 室 场 。 随 着 饲料 储备 的 碱 少 ， 每 年 牧场 在 接近 挤 奶 季节 末期 时 只 留 下 1/5 的 奶牛 。 每 头 牛 的 
生育 和 牛奶 产量 的 历史 数据 都 会 影响 这 个 决定 。 除 此 以 外 还 要 考虑 的 因素 有 : 年 龄 (每 头 牛 
都 将 在 八 岁 后 接近 生育 期 的 终结 )、 健 康 问题 、 难 产 的 历史 数据 、 不 良 的 性 情 特征 (如 炮 踊 子 、 
跳 栅栏 )、 在 下 一 个 季节 里 不 产 牛 犊 。 在 过 去 的 儿 年 ， 几 百 万 头 牛 中 的 每 一 头 牛 都 用 700 多 个 
属性 记录 下 来 。 机 器 学 习 正 是 用 来 考察 成 功 的 农场 主 在 做 决定 的 时 候 需 要 考虑 哪些 因素 ， 不 
是 为 了 使 决策 自动 化 ， 而 是 向 其 他 人 推广 这 些 农场 主 的 技术 和 经 验 。 

机 器 学 习 是 从 数据 中 挖掘 知识 。 它 是 一 个 正在 萌 荐 的 新 技术 ， 范 围 涉及 生 与 死 、 从 欧洲 
到 两 极 、 家 庭 和 事业 ， 正 逐渐 引起 人 们 的 重视 。 


1.1 数据 挖掘 和 机 器 学 习 


我 们 正在 被 数据 所 淹没 。 存 在 于 这 个 世界 和 我 们 生活 中 的 数据 总 量 似乎 在 不 断 地 增长 ， 
而 且 没 有 停止 的 迹象 。 个 人 计算 机 的 普及 将 那些 以 前 会 丢弃 的 数据 保存 起 来 。 便 宜 的 、 大 容 
量 的 硬盘 推迟 了 用 这 些 数据 做 什么 的 决定 ， 因 为 我 们 可 以 买 更 多 的 硬盘 来 保存 数据 。 无 处 不 
在 的 电子 数据 记录 了 我 们 的 决策 ， 如 超市 里 的 商品 选择 ; 个 人 的 理财 习惯 ; 以 及 收入 和 消费 。 
我 们 以 自己 的 方式 生活 在 这 个 世界 上 ， 而 每 一 个 行为 又 成 为 一 条 数据 库 里 的 记录 。 如 今 互联 
网 用 信息 将 我 们 淹没 ， 我 们 在 网 上 所 做 的 每 一 个 选择 都 被 记录 。 所 有 的 这 些 信息 记录 了 个 人 
的 选择 ， 而 在 商业 和 企业 领域 存在 着 数 不 清 的 相似 案例 。 我 们 都 知道 我 们 对 数据 的 掌握 了 解 
永远 无 法 赶 上 数据 升级 的 速度 。 而 且 在 数据 量 增加 的 同时 ， 无 情 地 伴随 着 人 们 对 它 的 “理解 
度 ” 的 降低 。 隐藏 在 这 些 数据 后 的 是 信息 ， 具 有 潜在 用 处 的 信息 ， 而 这 些 信息 却 很 少 被 显现 
出 来 或 者 被 开发 利用 。 

本 书 是 关于 如 何在 数据 中 寻找 模式 ， 这 并 不 稀奇 。 人 类 从 一 开始 ， 就 试图 在 数据 中 寻找 
模式 。 猎 人 在 动物 迁徙 的 行为 中 寻找 模式 ; 农夫 在 庄稼 的 生长 中 寻找 模式 ; 政客 在 选民 的 总 
见 上 寻找 模式 ; 恋人 在 对 方 的 反映 中 寻找 模式 。 科 学 家 的 工作 〈 像 一 个 婴儿 ) 是 理解 数据 ， 
从 数据 中 找 出 模式 ， 并 用 它们 来 指导 在 真实 世界 中 如 何 运作 ， 然 后 把 它们 概括 成 理论 ， 这 些 
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理论 能 够 预测 出 在 新 的 情况 下 会 发 生 什么 。 企 业 家 的 工作 是 要 辨别 出 机 会 ， 就 是 那些 可 以 转 
变 成 有 利 可 图 的 生意 的 行为 中 的 一 些 模 式 ， 并 且 利 用 这 些 机 会 。 

在 数据 挖 所 中， 计算 机 以 电子 化 的 形式 存储 数据 ， 并 且 能 自动 地 查询 数据 ， 或 至 少 扩 增 
数据 。 这 仍 算 不 得 新 鲜 事 。 经 济 学 家 、 统 计 学 家 、 预 测 家 和 信息 工程 师长 和 久 以 来 相信 ， 存 在 
于 数据 中 的 模式 能 够 被 自动 地 找到 、 识 别 、 确 认 并 能 用 二 预测 。 该 理论 的 最 新 发 展 使 得 由 数 
据 中 找 出 模式 的 机 遏 剧 增 。 在 最 近 儿 年 ， 数 据 库 急剧 膨胀 ， 如 每 天 记录 顾客 选择 商品 行为 的 
数据 库 ， 正 把 数据 挖 扬 带 到 新 的 商业 应 用 技术 的 前 治 。 据 估计 ， 存 储 在 余 世 界 数据 库 里 的 数 
据 量 正 以 每 二 十 个 月 翻 一 倍 的 速度 增长 。 尽 管 很 难 从 量 的 意义 上 真正 验证 这 个 数字 ， 但 是 我 
们 可 以 从 质 上 把 握 这 个 增长 速度 。 随 着 数据 量 的 膨胀 ， 以 及 利用 机 器 承担 数据 搜索 工作 已 变 
得 普通 ， 数 据 挖 质 的 机 会 正在 增长 。 世 界 正 越 来 越 丰富 多 彩 ， 从 中 产生 的 数据 沥 没 了 我 们 ， 
数据 挖掘 技术 成 为 我 们 洞察 构成 数据 的 模式 的 唯一 希望 。 被 充分 研究 过 的 数据 是 宝贵 的 资源 。 
它 能 够 引导 入 们 去 获得 新 的 洞察 力 ， 用 商业 语言 讲 是 获得 竞争 优势 。 

数据 挖掘 就 是 通过 分 析 存 在 于 数据 库 里 的 数据 来 解决 问题 。 例 如 ， 在 激烈 竞争 的 市 场 上 ， 
客户 忠诚 度 摇摆 问题 就 是 -- 个 经 常 提 到 的 事例 。 一 个 有 关 客 户 商品 选择 以 及 客户 个 人 资料 的 
数据 库 是 解决 这 个 问题 的 关键 。 以 前 客户 的 行为 模式 能 够 被 用 来 分 析 并 识别 那些 喜欢 选 购 不 
同 商品 ， 和 那些 喜欢 选择 同 种 商品 客户 的 特性 。-- 旦 这 些 特性 被 发 现 ， 它 们 将 被 用 于 当前 实 
际 的 客户 群 中 ， 和 鉴别 出 那些 善 变 的 客户 群体 ， 并 加 以 特殊 对 待 ， 须 知 对 整个 客户 群 都 加 以 特 
殊 对 待 的 成 本 是 高 兄 的 。 同 样 技术 还 能 够 被 用 来 辨别 出 那些 对 企业 当前 提供 的 服务 并 不 满意 ， 
但 是 有 可 能 对 的 其 他 服务 感 兴趣 的 客户 群 ， 并 向 他 们 提供 特殊 建议 ， 从 而 推广 这 些 服务 。 在 
当代 竞争 激烈 、 以 客户 和 服务 为 中 心 的 经 济 中 ， 如 果 数 据 能 够 被 挖掘 ， 它 将 成 为 推动 企业 发 
展 的 原材料 。 

数据 挖 气 被 定义 为 找 出 数据 中 的 模式 的 过 程 。 这 个 过 程 必须 是 自动 的 或 (通常 ) 半自动 
的 。 数 据 的 总 旱 总 是 相当 可 观 的， 但 从 中 发 现 的 模式 必须 是 有 意义 的 ， 并 能 产生 出 - - 些 效益 ， 
通常 是 经 济 上 的 效益 。 

如 何 表示 数据 模式 ”有 价值 的 模式 能 够 让 我 们 在 新 数据 上 做 出 非凡 的 预测 。 表 示 … 个 模 
式 有 了 两 种 极端 方法 : 一 种 是 内 部 结构 很 难 被 理解 的 黑匣子 ; 一 种 是 展示 模式 结构 的 透明 的 匣 
子 ， 它 的 结构 揭示 了 模式 的 结构 。 我 们 假设 两 种 方法 都 能 做 出 好 的 预测 ， 它 们 的 区 别 在 于 被 
挖 据 出 的 模式 能 否 以 结构 的 形式 表现 .这 个 结构 是 否 能 够 经 得 起 分 析 ， 理 由 是 否 充 分 ， 能 否 
用 来 形成 未 来 的 决策 。 如 果 模式 能 够 以 显而易见 的 方法 获得 决策 结构 ， 我 们 就 称 它们 为 结构 
模式 ， 换 句 话 说 ， 它 们 能 帮助 解释 有 关 数 据 的 -- 些 现象 。 

现在 我 们 可 以 说 ， 这 本 书 是 有 关 寻 找 、 描 述 存在 于 数据 里 结构 模式 的 技术 。 我 们 所 涉及 
的 大 部 分 技术 已 经 在 被 党 为 机 器 学 习 的 领域 里 开发 出 来 。 这 里 我 们 首先 介绍 什么 是 结构 模式 。 
1.1.1 描述 结构 模式 

“结构 模式 ”是 什么 ”你 如 何 描述 他 们 ?用 什么 形式 输入 ”我 们 将 以 说 明 的 形式 来 回答 这 
个 问题 ， 而 不 是 尝试 给 出 正式 的 、 最 终 的 死板 的 定义 。 这 一- 章 后 面 将 给 出 很 多 例子 ， 现 在 让 
我 们 从 一 个 例子 人 手 来 体验 一 下 我 们 正在 讲解 的 内 容 。 

表 1-1 给 出 了 隐形 眼镜 的 一 组 数据 。 这 组 数据 是 验光 师 针对 病人 的 情况 做 出 的 诊断 :使 用 
软 的 隐形 眼镜 ， 硬 的 隐形 眼镜 ， 或 不 能 佩戴 隐形 眼镜 。 我 们 将 在 以 后 详细 讨论 属性 的 单独 音 
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义 。 表 中 的 每 一 行 代表 一 -个 例子 。 下 面 是 有 关 这 个 信息 的 部 分 结构 的 描述 。 


If tear production rate = reduced then recommendation = none 
Otherwise, if age = young and astigmatic = no 
then recommendation = soft 


结构 描述 倒 不 一 定 像 以 上 这 样 以 规则 的 形式 来 表达 。 另 一 种 普遍 使 用 的 表达 方法 是 决策 
树 ， 它 明确 了 需要 做 出 的 决策 顺序 以 及 伴随 的 建议 。 


表 1-1 隐形 眼镜 数据 





年 R 视力 诊断 wm x dA int ht 推荐 镜片 
young myope no reduced none 
young myope no normal soft 
young myope yes reduced none 
young myope yes normal hard 
young hypermetrope no reduced none 
young hypermetrope no normal soft 
young hypermetrope yes reduced none 
young hypermetrope yes normal hard 
pre-presbyopic myope no reduced none 
pre-presbyopic myope no normal soft 
pre-presbyopic myope yes reduced none 
pre-presbyopic myope yes normal hard 
pre-presbyopic hypermetrope no reduced none 
pre-presbyopic hypermetrope no normal soft 
pre-presbyopic hypermetrope yes reduced none 
pre-presbyopic hypermetrope yes normal none 
presbyopic myope no teduced none 
presbyopic myope no normal none 
presbyopic myope yes reduced none 
presbyopic myope yes normal hard 
presbyopic hypermetrope no reduced none 
presbyopic hypermetrope no normal soft 
presbyopic hypermetrope yes reduced none 
presbyopic hypermetrope yes normal none 





这 是 个 非常 简单 的 例子 。 首先， 这 个 表 呈 现 了 所 有 可 能 值 的 组 合 。 属 性 年 龄 有 3 种 可 能 
值 ， 属 性 视力 诊断 、 散 光 和 泪 流 量 分 别 有 2 种 可 能 值 。 所 以 这 个 表 有 24 行 记录 (3x2x2x2= 
24)。 上 面 所 提 到 的 规则 并 不 是 真正 从 数据 中 概括 出 来 ， 而 仅 是 对 数据 的 总 结 。 在 多 数学 习 情 
况 下 ， 所 给 出 的 样本 集 是 非常 不 完整 的 ， 所 以 一 部 分 工作 是 要 推广 到 其 他 新 的 样本 上 。 有 用户 可 
以 想像 如 果 从 上 面 的 表格 中 忽略 一 些 属性 泪 流 量 的 值 是 reduced 的 行 ， 仍 然 可 以 得 出 规则 : 


If tear production rate = reduced then recommendation = none 


这 个 规则 可 以 推广 到 那些 遗失 的 行 ， 并 且 能 正确 地 把 它们 填充 到 表 里 去 。 其 次 ， 样 本 中 的 每 
一 个 属性 都 指定 了 一 个 值 。 现 实 的 数据 集 不 可 避免 地 存在 一 些 样 本 ， 这 些 样 本 中 的 某 些 属性 
值 因 为 一 些 原因 而 不 可 知 ， 例 如 数据 没有 被 测量 、 丢 失 或 其 他 原因 。 第 三 ， 上 面 所 提 到 的 规 
则 能 正确 地 对 例子 进行 分 类 ， 但 是 通常 情况 下 ， 因 为 数据 中 存在 一 些 错误 或 者 “干扰 ”， 错 误 
分 类 的 情况 会 发 生 在 用 来 训练 分 类 器 的 数据 上 。 
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1.1.2 机 器 学 习 

现在 我 们 已 经 有 “ 些 输入 和 输出 的 概念 ， 下 面 我 们 将 转 人 机 器 学 习 的 主题 。 究 竟 什 么 是 
学 习 ? 什 么 是 机 器 学 习 ? 这 是 哲学 范畴 的 问题 ， 在 这 本 书 里 ， 我 们 将 不 涉及 有 关 哲 学 的 问题 ， 
而 着 重 立 足 于 实践 。 然 而 ， 在 卷 起 袖子 着 手 开始 研究 机 器 学 习 之 前 ， 值 得 花 一 些 时 间 从 一 些 
基本 的 问题 入 手 、 弄 清 其 中 的 微妙 之 处 。 我 们 的 字典 所 给 出 的 “学 习 ” 的 定义 如 下 : 

通过 学 习 、 体 验 或 者 被 教授 得 到 知识 ; 

从 信息 或 观察 中 得 知 ; 

获得 记忆 ; 

被 告知 ， 查 明 ; 

接受 指令 。 
当 涉及 计算 机 的 时 候 ， 这 些 定 勾 就 存在 一 些 缺 陷 。 对 于 前 两 条 ， 事 实 上 不 可 能 检测 学 习 是 否 
完成 。 我 们 怎么 能 知道 一 台 机 器 是 否 “ 拥 有 知识 ”? 我 们 也 不 大 可 能 向 机 器 提出 问题 ; 即使 
我 们 能 ， 那 也 只 是 在 测试 机 器 回答 问题 的 能 力 ， 而 不 可 能 测试 它 学 习 的 能 力 。 我 们 又 如 何 知 
道 它 是 否 已 经 “得 知 ”? 有 关 计 算 机 是 否 能 意识 到 或 有 知觉 的 问题 是 . -个 激烈 争论 的 哲学 问 
题 。 对 于 后 “条 定义 ， 用 人 类 的 术语 来 说 ， 我 们 看 到 它们 做 出 的 贡献 局 限于 “ 变 成 记忆 ”和 
“接受 指导 ”， 这 个 定义 对 我 们 所 指 的 机 器 学 习 似乎 太 简单 了， 也 太 被 动 ， 对 于 计算 机 来 说 ， 
这 些 任务 太平 凡 。 而 我 们 只 对 在 新 情况 其 性 能 的 改善 ， 或 至 少 其 性 能 所 具有 的 潜力 感 兴趣 。 
须知 你 可 以 通过 死记 硬 背 的 学 习 方法 来 “获得 记忆 ”或 “得 知 " ， 却 没有 能 力 在 新 的 情况 下 运 
用 新 的 知识 ; 你 也 能 够 得 到 指导 却 毫 无 收益 。 

以 前 我 们 是 从 可 操作 的 角度 上 定义 机 器 学 习 : 是 从 大 量 的 数据 中 自动 或 半自动 地 寻找 模 
式 的 过 程 ， 而 且 这 个 模式 必须 有 用 的 。 我 们 可 以 用 同样 的 方法 为 学 习 建立 “个 可 操作 的 定义 : 
即 ， 当 事物 以 令 其 自身 在 将 来 表现 更 好 为 标准 来 改变 其 行为 时 ， 它 学 到 了 东西 。 

这 个 定义 将 学 习 和 表现 而 不 是 知识 捆绑 在 一 起 。 你 可 以 通过 观察 和 比较 现在 和 过 去 的 行 
为 来 评估 学 习 。 这 是 -个 非常 客观 看 上 去 也 满意 得 多 的 定义 。 

但 是 仍然 存在 一些 问 题 。 学 习 是 -个 有 点 贺 滑 的 概念 。 很 多 事物 都 能 以 多 种 途径 改变 它 
们 的 行为 ， 为 使 它们 能 在 未 来 做 得 更 好 ， 但 是 我 们 不 愿意 说 它们 已 经 真正 学 到 了 。 -只 舒服 
的 拖鞋 就 是 “个 很 好 的 例子 。 拖鞋 学 到 了 脚 的 形状 了 吗 ? 当然 拖鞋 确实 改变 了 它 的 外 形 从 而 
使 它 成 为 “只 很 舒服 的 拖鞋 。 我 们 不 想 称 其 为 学 习 。 在 日 常 语 言 中 ， 我 们 往往 使 用 “训练 * 
这 个 词 引 申 出 个 不 用 大 脑 的 学 习 。 我 们 训练 动物 其 至 植物 ， 尽 管 这 个 概念 从 训练 像 拖 鞋 一 
类 没有 生命 的 事物 上 得 到 拓展 ， 但 是 学 习 是 不 同 的 。 学 习 意味 着 思考 和 目的 ， 并 且 学 习 必 须 
故意 去 做 “ 些 事 。 这 就 是 为 什么 我 们 不 愿 说 一 个 葡萄 功 学 会 了 沿 着 葡萄 园 的 架子 生长 ， 而 说 
它 已 经 被 训练 。 学 习 没 有 目的 只 能 是 训练 ， 或 进一步 说 ， 在 学 习 中 ， 目 的 是 学 习 者 的 目的 ， 
而 在 训练 中 ， 目 的 是 老师 的 目的 。 

因此 从 计算 机 的 视角 出 发 ， 以 可 操作 的 、 性 能 为 指导 的 原则 进一步 审视 第 二 种 学 习 的 定 
义 时 ， 就 存在 “ 些 问 题 。 当 判断 是 否 真正 学 到 一 些 东 西 时 ， 需 要 去 看 它 是 否 打算 去 学 ， 是 否 
其 中 包含 一 些 目的 。 当 应 用 到 机 器 上 时 ， 它 使 得 概念 抽象 化 ， 因 为 我 们 无 法 弄 清 楚 人 工 制品 
是 否 能 够 做 出 有 目的 的 举动 。 哲 学 上 有 关 “ 学 习 ” 真 正 意味 着 什么 的 讨论 ， 就 像 有 关 “ 目 的 ” 
或 “打算 ”真正 意味 什么 - - 样 充满 困难 。 甚 至 法 院 也 很 难 把 握 企图 的 含义 。 











1.1.3 数据 挖 据 

幸运 的 是 ,本 书 所 介绍 的 学 习 技术 并 没有 呈现 出 这 种 概念 上 的 问题 ， 它 们 被 称 为 机 器 学 习 ， 
并 没有 真正 预示 任何 有 关 学 习 到 底 是 什么 的 特殊 的 哲学 态度 。 数 据 挖 据 是 一 个 特殊 的 主题 ， 它 
涉及 到 实践 意义 上 的 学 习 ， 而 不 是 理论 意义 上 的 学 习 。 我 们 对 从 数据 中 找 出 和 表达 结构 模式 的 
技术 感 兴 趣 ， 这 个 结构 模式 能 作为 一 个 工具 来 帮助 解释 数据 ， 并 从 中 做 出 预测 。 数 据 是 以 一 个 
样本 集 的 形式 出 现 ， 例 如 -- 些 已 改变 其 忠诚 对 象 的 客户 的 样本 ， 或 一 种 特定 的 隐形 眼镜 针对 某 
种 特殊 情况 被 推荐 的 样本 。 输 出 是 以 在 新 的 样本 上 做 出 预测 的 形式 出 现 : 一 个 具体 客户 是 否 将 
发 生 改 变 的 预测 ， 或 者 在 给 定 的 条 件 下 哪 种 隐形 眼镜 将 被 推荐 的 预测 。 但 是 这 本 书 是 关于 从 数 
据 中 找 出 和 阐述 模式 的 问题 ， 所 以 输出 将 同样 包括 一 个 真正 的 结构 描述 ， 这 个 结构 能 被 用 来 对 
未 知 的 实例 进行 分 类 从 而 解释 决策 。 对 于 性 能 ， 它 有 助 于 提供 一 个 清楚 的 所 需求 知识 的 表现 方 
法 。 从 本 质 上 说 ， 它 反映 了 以 上 提 到 的 两 种 学 习 的 定义 : 知识 的 获得 和 使 用 知识 的 能 力 。 

许多 学 习 技 术 寻 找 有 关 学 到 什么 的 结构 描述 ， 这 种 描述 能 变 得 非常 复杂 ， 通 常 表现 为 如 
上 所 示 的 一 套 规 则 ， 或 是 本 章 将 要 阐述 的 决策 树 。 这 种 描述 可 以 用 来 解释 已 经 学 到 什么 ， 解 
释 关于 新 的 预测 的 基本 思想 ， 所 以 能 够 被 人 们 所 理解 。 经 验 表 明 许 多 机 器 学 习 应 用 到 数据 控 
据 领 域 中 时 ， 拥 有 清楚 的 知识 结构 是 必要 的 ， 而 结构 描述 也 同样 重要 ， 它 往往 比 在 新 的 例子 
上 有 良好 的 表现 能 力 更 重要 。 人 们 频繁 地 使 用 数据 挖 据 不 只 为 了 预测 ， 也 为 了 获得 知识 。 从 
数据 中 获得 知识 听 起 来 像 一 个 好 的 主意 ， 你 也 能 够 做 到 。 下 面 的 内 容 将 指导 读者 如 何 去 做 。 


1.2 简单 的 例子 : 天 气 问 题 和 其 他 


在 这 本 书 里 ， 我 们 将 用 到 很 多 例子 。 本 书 是 关于 从 实例 中 学 习 ， 这 种 形式 就 显得 格外 合 
适 。 我 们 将 不 断 提 到 一 些 标准 的 数据 集 。 不 同 的 数据 集 往往 揭示 出 新 的 问题 和 挑战 ， 在 考虑 
学 习 方法 的 时 候 ， 对 不 同 的 问题 的 思考 对 研究 有 着 指导 意义 ， 也 会 增加 研究 的 趣味 性 。 实 际 
|:， 也 十 分 有 必要 来 研究 不 同 的 数据 集 。 这 里 所 用 的 每 一 个 数据 集 都 由 一 百 多 个 实例 问题 组 
成 。 我 们 可 以 在 相同 的 问题 集 上 对 不 同 的 算法 进行 测试 和 比较 。 

在 这 “ 节 所 用 的 例子 理想 化 的 简单 。 数 据 挖掘 的 真正 应 用 对 象 是 由 几 千 个 ， 或 几 十 万 个 ， 
甚至 几 百 万 个 独立 的 样本 组 成 。 但 是 当 我 们 解释 算法 做 什么 和 如 何 做 的 时 候 ， 我 们 需要 一些 
简单 的 例子 ， 它 们 不 但 能 够 抓 住 问题 的 本 质 ， 而 且 小 的 数据 量 也 有 助 于 人 们 对 其 中 每 一 个 细 
节 问 题 的 理解 。 我 们 将 在 这 一 节 以 及 这 本 书 里 研究 这 些 例子 。 这 些 例 子 比 较 倾 向 于 “学 术 性 ”， 
它们 能 够 帮助 我 们 理解 将 要 发 生 什么 。 一 些 真正 在 专业 领域 里 运用 的 学 习 技 术 将 在 1.3 节 中 讨 
论 ， 这 本 书 中 所 提 到 的 其 他 的 例子 将 在 本 章 的 补充 读物 部 分 提 及 。 

通常 真实 的 数据 集 还 存在 一 个 问题 : 私有 的 属性 。 没 有 人 愿意 与 你 共享 他 们 的 客户 和 产 
品 选 购 的 数据 库 ， 从 中 让 你 理解 他 们 的 数据 挖掘 的 应 用 和 如 何 工作 的 细节 。 公 共 的 数据 是 非 
常 宝贵 的 资源 ， 它 们 的 价值 随 着 就 像 这 本 书 中 提 到 的 数据 挖掘 技术 的 发 展 而 急剧 增加 。 这 里 
我 们 关注 的 是 对 数据 控 据 方法 是 如 何 工作 的 理解 。 详 细 了 解数 据 挖掘 工 作 的 细节 ， 有 利于 我 
们 跟踪 数据 挖 据 方 法 在 真正 数据 上 的 操作 。 这 就 是 为 什么 我 们 使 用 一 些 简 单 例子 的 原因 。 这 
些 例 子 虽 然 是 简单 的 ， 但 是 足以 表现 出 真正 数据 集 的 特性 。 


1.2.1 天 气 问 题 
天 气 问题 是 一 个 很 小 的 数据 集 ， 我 们 将 不 断 地 用 该 数据 集 来 说 明 机 器 学 习 的 方法 。 这 完 
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全 是 一 个 虚构 的 例子 ,假设 可 以 进行 某 种 体育 运动 的 天 气 条 件 。 总 的 来 说 ， 数 据 集 中 的 样本 
由 一 些 属性 值 来 表示 ， 这 些 值 是 从 不 同 的 方面 测量 样本 而 得 到 的 。 天 气 问题 有 4 个 属性 : HE 
(outlook), mm /€ (temperature), jf AF (humidity) #l#l KM (windy), Aes BARES (play, not). 

表 1-2 是 天 气 问题 一 个 最 简单 的 形式 。 所 有 的 4 个 属性 值 都 是 符号 类 (symbolic categories), 
而 不 是 数值 。 其 中 ， 阴 晴 属 性 值 分 别 是 : sunny. overcast, rainy; 温度 属性 值 分 别 是 : hot, 
mild. cool; 湿度 属性 值 分 别 是 : high, normal; 刊 风 属性 值 是 true、false。 这 些 值 可 以 建立 
36 个 可 能 的 组 合 (3 x 3 x 2x 2=36)， 其 中 的 14 个 样本 作为 输入 样本 。 








表 1-2 天气 数据 
BRA ia = 湿 K al JA 元 
Sunny hot high false no 
sunny hot high true no 
overcast hot high false yes 
rainy mild high false yes 
rainy cool normal false yes 
rainy cool normal true no 
overcast cool normal true yes 
sunny mild high false no 
sunny cool normal false yes 
rainy mild normal false yes 
sunny mild normal true yes 
overcast mild high true yes 
overcast hot normal false yes 
rainy mild high true no 








从 这 些 信 息 中 学 到 的 一 组 规则 ， 也 许 不 是 非常 好 ， 但 是 形式 应 该 如 下 : 


If outlook = sunny and humidity = high then play = no 


If outlook = rainy and windy = true then play = no 
If outlook = overcast then play = yes 
If humidity = normal then play = yes 
If none of the above then play = yes 


这 些 规则 按 先 后 次 序 判断 : 首先 看 第 一 条 规则 ， 如 果 不 适 用 ， 就 用 第 二 条 ， 如 此 下 去 。 
如 果 一 组 规则 按 次 序 判断 ， 称 为 决策 列 (decision list)。 作 为 决策 列 来 判断 时 ， 规 则 能 对 表 中 
的 所 有 实例 正确 地 进行 分 类 ， 如 果 脱 离 上 下 文 ， 单 独 地 使 用 规则 进行 判断 时 ， 有 一 些 规则 将 
是 错误 的 。 例 如 ， 规 则 if humidity=normal then play=yes 将 错 分 一 个 样本 (在 表 中 
检查 哪个 实例 被 分 错 ) 。 毫 无 疑问 ， 一 组 规则 的 意义 取决 于 它 是 如 何 被 判断 的 。 

表 1-3 是 一 个 比较 复杂 形式 的 天 气 问题 。 其 中 两 个 属性 : 温度 和 湿度 的 值 是 数值 型 的 值 。 
这 意味 着 许多 学 习 方案 必须 对 两 个 属性 建立 不 等 式 ， 而 不 是 像 上 一 个 例子 所 描述 的 简单 的 相 
等 的 测试 。 这 个 问题 称 为 数值 属性 问题 (numeric-attribute problem ) 。 因 为 并 不 是 所 有 的 属性 
都 是 数值 型 ， 所 以 也 叫做 混合 属性 问题 (mixed-attribute problem). 

所 以 第 一 个 规则 应 该 是 以 下 形式 : 

If outlook = sunny and humidity > 83 then play = no 

得 到 一些 包含 数值 测试 的 规则 是 一 个 比较 复杂 的 过 程 。 

到 现在 为 止 我 们 看 到 的 规则 是 分 类 规则 (classification rules): 他 们 以 是 否 玩 的 形式 去 预 
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测 样 本 的 类 。 也 可 以 不 管 它 的 分 类 ， 仅 仅 寻 找 一 些 规则 ， 这 些 规 则 和 不 同 的 属性 值 紧密 关联 ， 
称 为 关联 规则 (association rules), A#1-2 (天 气 数据 ) 中 可 以 找到 许多 关联 规则 。 下 面 列 
举 出 一 些 好 的 关联 规则 。 


If temperature = cool then humidity = normal 
If humidity = normal and windy = false then play = yes 

If outlook = sunny and play = no then humidity = high 
If windy = false and play = no then outlook = sunny 


and humidity = high. 


表 1-3 ” 带 有 数值 属性 的 天 气 数据 





BB imo 度 z2 E a JA 玩 
sunny 85 85 false no 
sunny 80 - 90 true no 
overcast 83 86 false yes 
rainy 70 96 false yes 
rainy 68 80 false yes 
rainy 65 70 true no 
overcast 64 65 true yes 
sunny 72 95 false no 
sunny 69 70 false yes 
rainy 75 80 false yes 
sunny 75 70 true yes 
overcast ， 72 90 true yes 
overcast 81 75 false yes 
rainy 71 91 true no 





以 上 列 出 的 规则 对 于 所 给 的 数据 的 准确 率 达 到 100% ， 它 们 没有 做 出 任何 错误 的 预测 。 前 
两 个 规则 分 别 适用 于 数据 集中 的 4 个 样本 ， 第 三 个 适用 于 3 个 样本 ， 第 四 个 适用 于 2 个 样本 。 除 
此 以 外 还 能 找 出 很 多 其 他 规则 。 实 际 上 在 天 气 数据 中 能 找 出 60 多 个 关联 规则 能 适用 于 两 个 以 
上 的 样本 ， 并 且 是 完全 正确 的 。 如 果 要 寻找 小 于 100% 准 确 率 的 规则 ， 将 会 找到 更 多 。 原 因 是 
关联 规则 能 够 “预测 ”任何 属性 值 ， 并 且 能 够 预测 一 个 以 上 的 属性 值 ， 而 分 类 规则 仅 预测 一 
个 特定 的 类 。 例如， 上 面 第 四 个 规则 预测 结论 是 ， 阴 上 晴 是 sunny ， 湿 度 是 high。 


1.2.2 隐形 眼镜 : 一 个 理想 化 的 问题 


前 面 介 绍 的 隐形 眼镜 数据 ， 是 通过 给 出 的 一 些 有 关 病 人 的 信息 ， 来 告诉 你 被 推荐 的 隐 
形 眼 镜 的 类 型 。 注 意 ， 这 个 例子 仅 为 了 说 明 问 题 ， 它 把 问题 过 于 简单 化 ， 不 能 用 于 实际 
诊断 。 

表 1-1 的 第 一 列 给 出 了 患者 的 年 龄 ， 这 里 需要 解释 一下: presbyopia 是 一 种 远视 眼 ， 通 常 
发 生 在 中 等 年 纪 的 人 群 ; 第 二 列 是 眼镜 的 诊断 : myope 是 近视 ，hypermetrope 是 远视 ;第 三 列 
显示 患者 是 否 散光 ; 第 四 列 是 有 关 眼 泪 的 产生 率 ， 这 是 一 个 重要 的 因素 ， 因 为 隐形 眼镜 需要 
泪水 润 消 。 最 后 一 列 显示 所 推荐 的 隐形 眼镜 的 种 类 : hard、soft 或 者 none。 这 个 表 呈 现 了 所 有 
属性 值 的 组 合 。 

图 1-1 是 从 这 些 信息 中 学 到 一 组 规则 的 例子 。 这 是 一 个 比较 大 的 规则 的 集合 ， 但 是 它们 确 


10 
12 





8 FHP MBFILASRK 


实 对 所 有 的 例子 都 能 进行 准确 地 分 类 。 这 些 规则 是 完善 的 也 是 确定 的 : 它们 为 每 一 个 可 能 的 
例子 给 出 了 一 个 唯一 的 诊断 。 但 通常 不 是 这 样 的 。 有 时 在 某 些 情况 下 没有 任何 规则 可 以 适用 ， 
而 有 时 能 够 适用 的 规则 不 止 一 个 ， 从 而 会 产生 出 自 相 矛盾 的 建议 。 所 以 有 时 规则 有 可 能 会 与 
概率 或 者 权 联系 在 一 起 ， 来 指出 其 中 的 一 些 规则 相对 于 另 一 些 更 重要 ， 或 者 更 可 靠 。 

你 也 许 想 知道 是 否 一 个 小 的 规则 集 也 有 很 好 的 表现 。 如 果 的 确 表现 好 的 话 ， 你 是 否 应 该 
使 用 小 的 规则 集 ， 为 什么 ?这 本 书 将 向 我 们 展示 了 这 一 类 精确 的 问题 。 因 为 样本 构造 了 一 个 
完整 的 问题 空间 (problem space) 的 集合 。 规 则 只 是 总 结 了 所 有 给 出 的 信息 ， 并 以 一 个 不 同 
的 、 更 精练 的 方式 来 表达 。 尽 管 规则 没有 概括 ， 但 是 它 也 是 一 个 非常 有 用 的 分 析 问 题 的 方法 。 
大 们 频繁 地 使 用 机 器 学 习 技术 来 洞察 数据 的 结构 ， 而 不 是 对 新 的 数据 做 出 预测 。 实 际 土 ， 在 
机 器 学 习 领 域 ， 一 个 永恒 的 成 功 的 研究 过 程 是 以 压缩 一 个 海量 数据 库 开 始 ， 这 个 海量 数据 库 
的 数据 容量 相当 于 象棋 最 后 阶段 所 有 可 能 性 的 数量 ， 从 而 最 终 得 到 一 个 大 小 合理 的 数据 结构 。 
为 这 个 计划 所 选择 的 数据 结构 不 是 一 个 规则 集 ， 而 是 一 个 决策 树 。 


If tear production rate = reduced then recommendation = none 
If age = young and astigmatic = no and 
tear production rate = normal then recommendation = soft 
If age = pre-presbyopic and astigmatic = no and 
tear production rate = normal then recommendation = soft 
If age = presbyopic and spectacle prescription = myope and 
astigmatic = no then recommendation = none 
If spectacle prescription = hypermetrope and astigmatic = no and 
tear production rate = normal then recommendation = soft 
If spectacle prescription = myope and astigmatic = yes and 
tear production rate = normal then recommendation = hard 
If age = young and astigmatic = yes and 
tear production rate = normal then recommendation = hard 
If age = pre-presbyopic and 
spectacle prescription = hypermetrope and astigmatic = yes 
then recommendation = none 
If age = presbyopic and spectacle prescription = hypermetrope 
and astigmatic = yes then recommendation = none 





图 1-1 隐形 眼镜 数据 的 规则 


图 1-2 以 一 个 决策 树 的 形式 展示 了 关于 隐形 眼镜 
数据 的 结构 的 表达 ， 在 多 种 用 途上 是 一 个 更 简练 、 明 
了 的 规则 表示 法 ， 并 且 有 更 加 便于 观察 的 优势 。( 然 
而 ， 与 图 1-1 给 出 的 规则 集 相 比 ， 决 策 树 对 两 个 实例 
的 分 类 是 错误 的 。) 树 首先 对 属性 泪 流量 进行 测试 ， 
产生 的 两 个 分 支 与 两 个 可 能 的 输出 结果 相对 应 。 如 果 
属性 泪 流 量 是 reduced ( 左 支 )， 输 出 是 none; 如 果 是 
normal ( 右 支 )， 第 二 个 测试 是 散光 属性 。 最 后 ， 无 
论 测 试 是 什么 结果 ， 所 达到 的 树 的 叶子 指出 了 向 病人 
推荐 的 隐形 眼镜 的 种 类 。 从 机 器 学 习 的 方案 来 看 ， 什 
么 才 是 最 自然 、 最 容易 被 理解 的 输出 形式 ， 有 关 这 部 

分 内 容 将 在 第 3 童 阐明 。 图 1-2 隐形 眼镜 数据 的 决策 树 
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123 BR: 一 个 经 典 的 数值 型 数据 集 


蔓 尾 花 数 据 集 是 由 杰出 的 统计 学 家 R.A Fisher 在 20 世 纪 30 年 代 中 期 开创 的 ， 它 被 公认 为 用 于 数 
据 控 据 的 最 著名 的 数据 集 。 它 包含 :- 种 植物 种 类 ( 蕊 尾 花 setosa, SEIE versicolor $ tE 
virginica) ， 每 种 各 有 50 个 样本 。 表 1-4 摘 录 了 这 个 数据 集 。 它 有 4 个 属性 组 成 : EEK, HEH. HE 
次 长 和 花瓣 宽 (而 量 单位 是 厘米 )。 与 前 面 的 数据 集 不 同 的 是 ， 齐 尾 花 的 所 有 属性 都 是 数值 属性 。 











表 1-4 ” 葛 尾 花 数据 

化 些 长 (cm) fete (cm) 化 办 长 (cm) {EE HE (cm) 种 类 

1 5.1 3.5 1.4 0.2 & Je 4Esetosa 

2 4.9 3.0 1.4 0.2 & JedEsetosa 

3 4.7 3.2 1.3 0.2 J 4Esetosa 

4 4.6 3.1 1.5 0.2 艾 必 化 setosa 

5 5.0 3.6 1.4 0.2 覃 尾 化 setosa 
51 7.0 3.2 47 1.4 ef dE versicolor 
52 6.4 3.2 4.5 1.5 SJ é fEversicolor 
§3 6.9 3.1 4.9 1.5 & Jé dE versicolor 
54 5.5 2.3 4.0 1.3 Je de versicolor 
55 6.5 28 4.6 1.5 J ¢ fe versicolor 
101 6.3 23 6.0 2.5 化 有 尼 化 virginica 
102 5.8 2.7 5.1 1.9 & fd dEvirginica 
103 7.1 3.0 5.9 2.1 & J€ dE virginica 
104 6.3 2.9 5.6 1.8 a fe JE virginica 
105 4.5 3.0 5.8 2.2 & fe dE virginica 


下 面 的 规则 集 是 从 这 个 数据 集中 学 到 的 : 


If petal length < 2.45 then Iris setosa 
If sepal width < 2.10 then Iris versicolor 
If sepal width < 2.45 and petal length < 4.55 then Iris versicolor 
If sepal width < 2.95 and petal width < 1.35 then Iris versicolor 
If petal length > 2.45 and petal length < 4.45 then Iris versicolor 
If sepal length > 5.85 and petal length < 4.75 then Iris versicolor 
If sepal width < 2.55 and petal length < 4.95 and 

petal width < 1.55 then Iris versicolor 
If petal length > 2.45 and petai length < 4.95 and 

petal width < 1.55 then Iris versicolor 
If sepal length > 6.55 end petal lenath < 5.05 then Tris versicolor 
Tt sepal width < 2.75 and petai width < 1.65 and 

sepal length < 6.05 then iris versicolor 
If sepal length > 5.85 and sepal length < 5.95 and 

petal length < 4.85 then Iris versicolor 
If petal length > 5.15 then Tris virginica 
If petal width > 1.85 then Iris virginica 
If petal width > 1.75 and sepal width < 3.05 then Iris virginica 
Tf petal length > 4.95 and peta: width < 1.55 then Iris virginica 


这 些 规则 非常 繁琐 、 我 们 将 在 第 3 章 里 看 到 能 表达 同样 信息 ， 却 更 加 紧凑 的 规则 。 
1.2.4 CPU 性 能 : 介绍 数值 预测 
尽管 帝 尼 化 数据 集 包 含 数 值 的 属性 , 但 它 的 输出 一 一 瘟 尾 花 的 类 型 是 -- 个 类 别 , 而 不 是 一 








10 FBS MEFILASBRAK 








个 数值 。 表 1-5 给 出 了 输出 和 属性 都 是 数值 型 的 一 些 数据 。 它 是 有 关 计 算 机 在 儿 个 相关 属性 上 
处 理 能 力 的 关联 表现 。 每 一 行 表示 一 台 计 算 机 的 配置 ， 总 共有 209 个 不 同 的 计算 机 配置 。 


321-5 CPU 性 能 数据 








周期 (ns) wo 高 速 缓存 (KB) 一 Ri ne Max 性 能 
MYCT CACH PRP 
MMIN MMAX CHMIN CHMAX 

1 125 256 6000 256 16 128 198 
2 29 8000 32000 32 8 32 269 
3 29 8000 32000 32 8 32 220 
4 29 8000 32000 32 8 32 172 
5 29 8000 16000 32 8 16 132 
207 125 2000 8000 0 2 14 52 
208 480 512 8000 32 0 0 67 
209 480 1000 4000 0 0 0 45 





处 理 连续 的 预测 值 的 传统 方法 是 把 结果 写成 一 个 线性 属性 值 的 和 ， 并 为 每 个 属性 加 上 

适当 的 权 。 例 如 : 
PRP =— 55.9+0.0489M YCT+0.0153MMIN+0.0056MMAX 
+0.6410CACH ~ 0.2700CHMIN+1.480CHMAX 

(缩写 的 变量 名 在 表 的 第 二 行 给 出 . ) 这 个 公式 称 为 回归 公式 (regression equation), kÆ 
权 值 的 过 程 称 为 回归 (regression )。 我 们 将 在 第 4 章 介绍 一 个 在 统计 学 中 众所周知 的 回归 过 程 。 
然而 ， 基 本 的 回归 方法 不 足以 发 现 非 线性 关系 (尽管 变量 确实 存 企 ， 人 在 6.3 节 中 将 阐述 其 中 的 
一 个 )。 在 第 3 章 中 ， 我 们 将 考查 能 够 用 于 预测 数值 量 的 不 同 表现 方式 。 

在 井 尾 花 和 中 央 处 理 器 CPU 性 能 数据 中 ， 所 有 属性 都 是 数值 属性 。 而 实际 的 数据 通常 表 
现 为 数值 和 非 数值 属性 的 混合 形式 。 


1.2.5 劳资 协商 : 一 个 更 真实 的 例子 


表 1-6 是 劳工 谈判 数据 集 ， 它 概括 了 加 拿 大 人 在 1987~1988 年 劳资 协商 的 结果 。 它 是 由 那 
些 在 商界 和 个 人 服务 领域 之 间 ， 为 至 少 有 500 人 的 组 织 (教师 、 护 士 、 大 学 老师 、 警 察 ， 等 等 ) 
达成 的 集体 协议 。 每 一 个 案例 涉及 到 一 个 合同 , 结果 是 是 否 合同 被 认为 可 以 接受 (acceptable), 
或 者 不 能 接受 (unacceptable )。 可 以 接受 的 合同 是 那些 劳工 和 管理 双方 都 能 接受 的 协议 。 那 
些 不 能 接受 的 合同 是 因为 某 一 个 团体 不 愿 接受 ， 而 导致 提议 失败 ; 或 者 可 以 接受 的 合同 却 在 
一 定 范围 内 引起 不 安 ， 因 为 从 专家 的 角度 来 看 ， 它 们 是 不 应 该 被 接受 的 。 

这 个 数据 集 有 40 个 样本 〈 另 外 通常 留 出 17 个 样本 给 测试 ) 。 与 其 他 表 不 同 ， 表 1-6 是 以 列 
而 不 是 行 的 形式 来 表示 样本 ， 否 则 表 的 宽度 将 要 延伸 好 几 页 。 其 中 一 些 未 知 或 残缺 的 值 用 问 
号 来 标记 。 

这 个 数据 集 比 我 们 先前 介绍 的 更 真实 。 它 存在 很 多 残缺 值 ， 看 上 去 似乎 不 太 可 能 得 到 -一 
个 真正 的 分 类 。 

图 1-3 展 示 了 表示 数据 集 的 两 个 决策 树 。 图 1-3a 简 单 且 近 似 : 它 没有 如 实 完全 表现 数据 。 
例如 ， 对 一 些 实际 上 被 标注 为 good 的 合同 ， 它 预测 为 bad 结 果 。 但 是 它 做 出 了 直觉 的 判断 : 如 











表 1-6 劳资 协商 数据 

属 性 类 “型 1 2 3 ve 40 
duration years 1 2 3 2 
wage increase Ist year percentage 2% 4% 4.3% 4.5 
wage increase 2nd year percentage ? 5% 4.4% 4.0 
wage increase 3rd year percentage ? ? ? ? 
cost of living adjustment {none, tcf, tc} none tcf ? none 
working hours per week hours 28 35 38 40 
pension {none, ret-allw, empl-cntr} none ? T ? 
standby pay percentage ? 13% ? ? 
shift-work supplement percentage 2 5% 4% 4 
education allowance {yes, no} yes ? ? ? 
statutory holidays days 11 15 12 12 
vacation {below-avg, avg, gen} avg gen gen avg 
long-term disability assistance {yes, no} no ? yi yes 
dental plan contribution {none, half, full} none ? full full 
bereavement assistance {yes, no} no ? id yes 
health plan contribution {none, half, full} none ? full half 
acceptability of contract {good,bad } bad good good good 


果 第 一 年 工资 的 增长 幅度 很 小 (小 于 2.5%)， 这 个 合同 是 bad (对 雇员 来 说 )。 如 果 第 一 年 工资 
的 增长 大 于 这 个 百分比 ， 而 且 还 有 很 多 法 定 假期 (超过 10 天 )， 它 就 是 go00d。 如 果 法 定 假期 比 
较 少 ， 但 是 如 果 第 一 年 工资 的 增长 幅度 足够 的 大 (大 于 4% ) ， 它 也 是 good。 








健康 计划 
one |half 





图 1-3 劳资 协商 的 决策 树 


图 1-3b 是 一 个 更 为 复杂 的 表示 同样 数据 集 的 决策 树 。 实 际 上 ， 这 是 一 个 用 来 建树 的 实际 
数据 集 的 更 精确 的 表达 方式 。 但 是 它 并 不 一 定 是 好 坏 合同 的 概念 的 一 个 更 准确 的 表现 。 顺 着 
左 支 向 下 看 ， 直 觉 上 并 不 能 使 人 理解 为 什么 当 工作 时 间 超 过 36 小 时 时 ， 如 果 没 有 给 出 健康 计 
划 或 者 给 出 一 个 完整 的 健康 计划 ， 这 个 合同 就 是 坏 的 ; 但 是 如 果 给 出 了 一 半 的 健康 计划 ， 这 
个 合同 却 又 变 成 好 的 了 。 健 康 计划 在 决策 中 要 起 作用 是 十 分 合理 的 ， 但 是 不 能 说 制定 了 一 半 
的 健康 计划 是 好 的 ， 而 拥有 完整 健康 计划 和 没有 健康 计划 是 坏 的 。 这 可 能 是 因为 建立 决策 树 
时 使 用 了 人 造 数据 ， 因 而 没有 真正 反映 有 关 好 和 坏 差异 的 真正 特征 。 
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图 1-3b 所 显示 的 树 在 分 析 用 于 训练 分 类 器 的 数据 时 拥有 更 高 的 准确 性 ， 但 是 在 分 析 - 一 个 
独立 的 测试 数据 集 时 ， 它 的 性 能 可 能 有 所 降低 。 原 因 是 在 训练 数据 过 程 中 出 现 了 “过 度 拟 合 ” 
(overfitted )。 图 1-3a 是 把 图 1-3b 修 剪 以 后 得 到 的 树 。 有 关内 容 我 们 将 在 第 6 章 进行 学 习 


1.2.6 大 豆 分 类 : 一 个 经 典 的 机 器 学 习 的 成 功 例子 


在 将 机 器 学 习 应 用 于 解决 实际 问题 时 ， 经 常 引用 的 -个 早期 的 成 功 案例 是 为 诊断 大 豆 疾 
病 找 出 鉴别 规则 。 数 据 是 从 描述 大 豆 作物 疾病 的 问卷 调查 表 中 采集 的 。 总 共有 680 多 个 样本 ， 
每 一 个 样本 表示 一 个 有 病 的 大 豆 作 物 。 大 豆 苗 从 35 个 属性 方面 被 检测 ， 每 一 个 属性 拥有 …- 组 
小 范围 的 可 能 值 。 所 有 样本 都 由 一 个 植物 生物 学 领域 的 专家 标记 上 诊断 结果 。 有 19 个 铠 怖 的 
RIAD RAR, METRE St, ARES, SBA, ER, 

表 1-7 给 出 了 所 有 属性 ， 每 个 属性 拥有 多 个 不 同 的 值 ， 每 - -个 实例 记录 -个 特定 的 植株 。 
为 了 便于 阅读 ， 所 有 属性 被 划分 到 不 同 的 分 类 中 。 





表 1-7 大 豆 数据 
二 性 值 的 数量 实例 值 
Environment time of occurrence 7 July 
precipitation 3 above normal 
temperature 3 normal 
cropping history 4 same as last year 
hail damage 2 yes 
damaged area 4 scattered 
severity 3 severe 
plant height 2 normal 
plant growth 2 abnormal 
seed treatment 3 fungicide 
germination 3 less than 80% 
Seed condition 2 normal 
mold growth 2 absent 
discoloration 2 absent 
size 2 normal 
shriveling 2 absent 
Fruit condition of fruit pods 3 normal 
fruit spots 5 
Leaf condition 2 abnormal 
leaf spot size 3 
yellow leaf spot halo 3 absent 
leaf spot margins 3 
shredding 2 absent 
leaf malformation 2 absent 
leaf mildew growth 3 absent 
Stem condition 2 abnormal 
stem lodging 2 yes 
stem cankers 4 above soil line 
canker lesion color 3 
fruiting bodies on stems 2 present 
external decay of stem 3 firm and dry 


mycelium on stem 2 absent 
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( 续 ) 
属 性 值 的 数量 实例 值 
internal discoloration 3 none 
sclerotia 2 absent 
Root condition 3 normal 
Diagnosis diaporthe stem 
19 canker 


下 面 是 两 个 从 数据 中 学 到 的 规则 的 例子 。 
If [leaf condition is normal and 
stem condition is abnormal and 
stem cankers is below soil line and 
canker lesion color is brownj 


diagnosis is rhizoctonia root rot 


If {leaf malformation is absent and 
stem condition is abnormal and 
stem cankers is below soil line and 
canker lesion color is brown] 


diagnosis is rhizoctonia root rot 

ik HE FAO FR RE eb as T MA RAS EE 〈 在 机 器 学 习 领 域 通常 称 为 领域 知识 domain 
knowledge)。 以 上 两 种 描述 的 不 同 之 处 在 于 叶子 状态 (leaf condition) 是 正常 还 是 叶子 畸形 (leaf 
malformation) 缺失 〈absent)。 实 际 上 在 这 个 领域 ， 如 果 叶 子 状 态 是 正常 ， 那 么 叶子 就 不 可 能 是 畸 
形 。 所 以 以 上 任何 种 情况 的 发 生 将 是 另外 一 种 情况 的 一 个 特例 。 因 此 如 果 第 一 个 规则 是 正确 的 ， 
那么 第 一 个 必定 是 正确 的 。 当 叶子 不 是 畸形 ， 但 是 叶子 状态 不 正常 ， 就 要 运用 第 二 条 规则 ， 也 就 
是 说 叶子 有 除了 畸形 以 外 的 不 正常 状态 存在 。 这 些 规则 不 是 从 漫不经心 的 阅读 中 能 显而易见 的 。 

在 20 世 纪 70 年 代 末 的 研究 中 发 现 ， 每 一 个 疾病 类 型 的 诊断 规则 都 能 由 机 器 学 习 算 法 从 300 
个 训练 样本 中 建立 。 这 些 训 练 样本 是 从 整个 病例 中 精心 挑选 出 来 的 ， 每 一 个 样本 都 截然 不 同 ， 
并 且 在 样本 空间 “相隔 很 远 "。 与 此 同时 再 对 那些 做 出 诊断 的 植物 病理 学 家 进行 访问 ， 然 后 把 
他 们 的 专家 经 验 翻 译 成 诊断 的 规则 。 令 人 惊奇 的 是 ， 与 专家 产生 的 规则 相 比 ， 计 算 机 产生 的 
规则 在 剩余 的 测试 实例 上 有 更 卓越 的 表现 。 它 对 病毒 预测 的 准确 率 达 到 97.5% ， 相 对 而 言 ， 
由 专家 给 出 的 规则 的 正确 率 只 有 72% 。 此 外 ， 不 但 由 学 习 算 法 发 现 的 规则 胜 过 合作 专家 的 结 
果 ， 而 且 用 (学习 算 法 ) 揭示 的 规则 代替 了 专家 自己 的 规则 ， 令 人 惊讶 。 


1.3 应 用 领域 


我 们 在 开始 介绍 的 例子 是 猜测 性 的 研究 项 目 ， 不 是 产品 系统 。 以 上 所 示 的 例子 都 是 一 些 
小 问题 ， 我 们 特意 选择 一 些小 型 的 例子 ， 用 来 研究 书 中 所 提 到 的 算法 。 那 么 真正 地 运用 在 哪 
里 ?这 里 将 介绍 一 些 真正 进入 实际 应 用 的 机 器 学 习 方 法 。 

在 领域 应 用 方面 ， 强 调 性 能 方面 学 习 的 使 用 ， 重 点 是 在 新 的 样本 上 有 良好 的 表现 能 力 。 这 本 
书 同时 描述 了 使 用 学 习 系 统 从 由 数据 推断 出 的 决策 结构 中 获得 知识 。 我 们 相信 这 与 做 出 高 质量 的 
预测 一 样 重要 ， 也 许 在 将 来 作为 技术 运用 后 还 会 更 加 重要 。 但 是 它 在 应 用 领域 尚 缺乏 代表 性 ， 因 
为 当 使 用 学 习 技术 来 获得 洞察 力 时 ， 结 论 通常 不 是 一 个 能 运用 在 实际 工作 中 的 应 用 系统 。 然 而 ， 
从 下 面 的 二 个 例子 可 以 看 出 ， 决 策 结构 是 可 以 理解 的 ， 它 是 衡量 方案 是 否 成 功 的 一 个 关键 特征 。 
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1.3.1 决策 包含 评判 

当 你 申请 贷款 ， 必 须 填 一 张 有 关 金 融和 个 人 信息 的 调查 表 。 信 贷 公 司 根据 这 些 基 本 信息 
做 出 决策 : 是否 批准 你 的 贷款 。 这 些 决 策 的 制定 要 通过 两 个 阶段 完成 。 首 先 ， 运 用 统计 的 方 
法 来 决定 那些 明确 能 “接受 ”或 “拒绝 ”的 案例 。 剩 下 是 处 于 临界 线 的 比较 复杂 的 案例 ， 需 
要 人 来 做 出 判断 。 例 如 ，… 个 信贷 公司 使 用 一 个 统计 的 决策 过 程 产生 一 个 数值 参数 ， 这 个 参 
数 是 从 调查 表 提供 的 信息 中 计算 出 的 。 如 果 这 个 参数 超过 一 个 预先 设 定 的 标准 ， 申 请 人 将 被 
接受 ， 如 果 低 于 标准 的 下 限 ， 申 请 人 将 被 拒绝 。 这 个 方案 能 够 处 理 90% 的 案例 ， 剩 下 的 10% 
需要 由 信贷 员 亲 自 做 出 决策 。 对 申请 人 能 否 真 正 偿 还 他 们 的 贷款 的 历史 数据 研究 表明 ， 有 超 
过 - 半 处 于 临界 的 并 得 到 贷款 的 申请 人 未 按期 付款 。 当 然 如 果 拒 绝 给 达到 临界 条 件 的 申请 人 
贷 坎 ， 将 使 问题 简单 化 。 但 是 信贷 公司 专业 人 士 指出 ， 如 果 能 够 可 靠 地 探 明 那些 在 未 来 有 偿 
还 能 力 的 客户 ， 那 么 公司 必须 争取 这 些 客户 。 他 们 通常 是 信用 机 构 里 较 话 跃 的 客户 ， 他 们 的 
资金 长 期 处 于 不 稳定 状态 。 因 此 在 一 个 不 喜欢 坏账 的 公司 会 计 和 一 个 追求 业绩 的 销售 主管 之 
间 、 必 须 达 成 :个 合适 的 妥协 。 

把 这 个 例子 引入 机 器 学 习 。 在 这 个 案例 中 ,输入 由 1000 个 训练 样本 组 成 ， 这 些 样本 是 处 
上 临界 线 并 得 到 贷款 的 案例 ， 而 有 旦 标明 借贷 人 是 否 最 终 偿 还 了 贷款 。 每 一 个 训练 样本 由 调查 
表 时 提取 的 20 多 个 属性 组 成 ， 如 : 年 龄 、 为 当前 雇主 工作 的 年 数 、 在 当前 地 址 居住 的 年 数 、 
拥有 银行 账户 的 年 数 ， 以 及 所 持 有 的 其 他 信用 卡 。 用 … 个 机 器 学 习 程序 生成 了 一 个 小 的 分 类 
规则 集 ， 它 在 个 单独 选 出 的 测试 集 上 正确 预测 了 2/3 处 于 临界 线 的 案例 。 这 些 规则 的 使 用 不 
但 提高 了 信贷 决策 的 成 功率 ,而 且 信 贷 公司 发 现 可 以 用 它们 来 向 客户 解释 决策 背后 的 原因 。 
尽管 这 是 一 个 探索 中 的 项 目 ， 只 取得 -- 些 小 的 发 展 成 果 ， 但 是 信贷 公司 显然 对 得 到 的 结果 很 
高 兴 ， 因 为 所 得 到 的 规则 能 够 立刻 运用 到 实际 工作 中 。 


1.3.2 RH 


从 卫星 技术 发 展开 始 ， 环 境 科 学 家 就 已 经 试图 从 卫星 图 片上 探测 出 浮 油 区 域 ， 为 了 能 及 
早 给 出 生态 灾难 的 警报 和 制止 非法 倾倒 的 行为 。 雷 达 卫 星 为 监控 沿海 水 域 提供 了 机 遇 ， 因 为 
它 不 受 白 天、 黑夜 以 及 天 气 条 件 的 影响 。 浮 油 区 域 将 以 一 个 深 色 区 域 出 现在 图 像 上 ， 它 的 大 
小 、 形 状 的 发 展 变化 取决 于 天 气 和 海洋 条 件 。 然 而 ， 其 他 一 些 看 上 去 比较 深 色 的 区 域 是 由 于 
当地 的 气候 条 件 ， 如 大 风 造 成 的 。 区 别 出 浮 油 区 域 是 一 个 代价 很 高 的 手工 过 程 ， 需 要 接受 过 
培训 的 人 员 进 入 到 图 片 中 的 每 一 个 区 域 进行 实地 调查 。 

ME, “个 危险 探测 系统 已 经 被 开发 ， 它 能 代替 手工 完成 后 续 处 理 ， 从 中 筛选 图 片 。 晶 
的 销售 给 世界 范围 内 的 广大 终端 用 户 。 因 为 各 个 政府 机 构 和 公司 处 于 不 同 地 域 ， 有 着 不 同 的 
目标 和 应 用 ， 所 以 ， 系 统 需要 高 度 客户 化 来 适应 不 同 的 需求 。 机 器 学 习 用 由 用 户 提供 的 浮 油 
区 域 和 非 浮 油 区 域 的 图 像样 本 来 训练 系统 ， 并 且 能 让 用 户 控制 如 何在 未 能 察觉 到 的 浮 油 区 域 
和 虚假 警报 之 间 进 行 权衡 。 与 其 他 机 器 学 习 应 用 的 不 同 之 处 在 于， 这 个 学 习 方 案 本 身 将 投入 
到 实际 应 用 领域 里 ， 而 其 他 的 则 是 先 产 生 一 个 分 类 器 ， 然 后 投入 到 实际 运用 中 。 

这 里 的 输入 是 从 雷达 卫星 获得 的 一 个 原始 的 像素 图 像 集 ， 而 输出 是 一 个 非常 小 的 图 像 集 ， 
这 些 图 像 是 推断 出 的 浮 油 区 域 .、 并 且 用 彩色 的 边框 加 以 标记 。 在 这 一 过 程 中 ， 首 先 需要 运用 
标准 图 像 操 作对 图 像 进行 标准 化 处 理 。 接 着 ， 识 别 出 可 疑 的 深 色 区 域 。 从 每 一 个 区 域 提取 数 
上 个 属性 用 于 刻画 区 域 的 规模 、 形 状 、 面 积 、 色 彩 饱 和 度 、 边 界 的 锐利 度 和 锯齿 形状 ， 附 近 








BIE & 论 15 





的 其 他 区 域 ， 以 及 有 关 的 邻近 区 域 的 背景 信息 。 最 后 把 标准 的 学 习 技术 运用 在 获得 的 属性 矢 
量 上 。 

在 此 过 程 中 遇 到 了 一 些 有 趣 的 问题 。 第 一 ， 用 于 训练 的 数据 极 少 。( 幸运 的 是 ) 原油 泄漏 
事件 是 很 少 发 生 的 ， 而 人 工分 类 的 成 本 极其 昂贵 。 第 二 ， 问 题 的 不 均衡 性 : 在 训练 数据 中 ， 
极 少 比例 的 深 色 区 域 是 由 真正 的 浮 油 造成 的 。 第 三 ， 样 本 自然 地 组 成 批 ， 每 一 批 都 是 从 一 个 
图 像 中 提取 的 区 域 的 集合 ， 批 与 批 之 间 的 背景 是 不 一 样 的 。 最 后 作为 一 个 过 滤器 来 完成 第 先 
的 工作 ， 并 且 必 须 为 用 户 提供 一 个 可 变更 虚假 报警 率 的 简便 的 方法 。 


1.3.3 负载 预测 


在 电力 供应 行业 ， 尽 可 能 旱地 判断 出 未 来 电力 的 需求 量 有 着 重要 的 意义 。 如 果 能 准确 地 
估计 出 每 小 时 、 每 天 、 每 月 、 每 季 和 每 年 的 最 大 和 最 小 负载 ， 那 么 电力 公司 能 够 在 很 多 领域 ， 
如 运作 储备 、 维 护 调度 ， 以 及 燃料 库存 管理 上 取得 很 高 的 经 济 性 。 

在 过 去 十 年 里 ， 一 个 自动 的 负载 预测 助理 已 经 为 一 个 主要 的 电力 供应 商工 作 了 ， 它 能 够 
提前 两 天 提供 每 小 时 负载 的 预测 。 完 成 这 个 预测 需要 利用 过 去 15 年 收集 的 数据 手工 建立 一 个 
复杂 的 模型 。 这 个 模型 有 三 个 组 件 : 年 基本 负载 量 、 年 内 负载 周期 以 及 假期 的 影响 。 要 得 到 
基本 负载 就 需要 将 数据 做 正常 化 处 理 ， 也 就 是 对 前 一 年 数据 进行 标准 化 ， 方 法 是 : 每 小 时 读 
出 的 负载 数值 减 去 每 小 时 平均 负载 量 ， 然 后 除 以 全 年 负载 的 标准 差 。 电 力 负载 在 三 个 基本 频 
率 上 显示 出 周期 性 的 变化 : 每 天 ， 电 的 用 量 在 早晨 最 低 ， 而 中 午 和 晚上 达到 最 高 ; 每 周 ， 电 
力 需求 在 周末 的 时 候 较 低 ; 按 季 节 统 计 ， 电 力 需求 量 在 每 年 的 冬季 和 夏季 增加 ， 分 别 是 为 了 
取暖 和 降温 的 需要 ; 在 一 些 主要 的 节假日 里 ， 如 感恩 节 、 圣 诞 节 和 新 年 ， 电 力 负载 和 平时 相 
比 显 示 出 急剧 的 变化 ， 对 于 这 些 特 殊 时 段 要 分 别 用 过 去 15 年 在 同一 天 每 小 时 的 平均 负载 量 单 
独 进行 建 模 。 - 些 次 要 的 官方 节假日 ， 如 哥伦布 月 ， 将 和 学 校 假期 一 起 作为 正常 日 《消费 ) 
模型 的 分 支 进行 处 理 。 以 典型 时 段 的 次 序 综 合 考虑 所 有 因素 重建 一 年 的 负载 ， 接 着 把 节假日 
插入 到 正确 的 位 置 ， 然 后 对 负载 进行 反 向 规格 化 ， 从 而 计算 出 大 致 的 增长 基 。 

综 上 所 述 ， 所 建 的 负载 模型 是 静态 的 ， 是 从 历史 数据 中 手工 建立 起 来 的 ， 并 且 隐 含 地 假设 
全 年 的 天 气 情况 “正常 "。 最 后 一 步 ， 要 考虑 天 气 条 件 的 影响 ， 使 用 一 个 技术 找 出 历史 上 和 当 
前 情况 相似 的 天 ， 并 把 那天 的 历史 信息 作为 一 个 预测 器 。 这 时 的 预测 是 对 静态 负载 模型 的 一 次 
附加 修正 。 为 了 防止 出 现 较 大 偏差 ， 需 要 找 出 非常 相似 的 8 天 ， 取 它们 附加 修正 值 的 平均 值 。 
为 此 需要 建立 一 个 数据 库 记 录 当 地 3 个 气象 中 心 在 过 去 15 年 里 每 小 时 的 温度 、 湿 度 、 风 速 和 云 
层 种 盖 度 ， 以 及 真实 负载 和 由 静态 模型 预测 的 负载 量 之 间 的 差异 。 用 一 个 线性 回归 分 析 方 法 分 
析 相 关 的 参数 对 负载 的 影响 ， 并 且 使 用 系数 对 用 于 寻找 最 相似 日 子 的 距离 函数 进行 权衡 。 

这 个 系统 表现 出 和 受过 培训 的 专业 人 员 相近 的 预测 能 力 ， 但 预测 的 速度 更 快 ， 只 要 几 秒 
钟 而 不 是 几 小 时 就 能 对 某 一 天 做 出 预测 。 操 作 人 员 可 以 通过 分 析 预 测 结果 对 天 气 变 化 的 敏感 
程度 ， 来 验证 系统 为 修正 预测 结果 所 使 用 的 天 气 变化 “最 相似 ”的 日 子 。 

1.3.4 诊断 

诊断 是 一 个 专家 系统 的 主要 应 用 领域 。 虽 说 手工 编写 的 规则 在 专家 系统 中 通常 运作 很 好 ， 
但 有 时 会 过 于 耗费 人 工 ， 在 这 种 情况 下 机 器 学 习 就 会 有 用 。 

对 主 电 机 设备 ， 例 如 ， 发 动机 和 发 电机 ， 预 防 性 的 维护 能 够 避免 由 于 故障 而 导致 工业 生 
产 过 程 的 中 断 。 机 械 师 定 期 地 检查 每 一 台 设 备 ， 在 不 同 的 位 置 测量 设备 的 振动 状况 ， 判 断 这 
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台 设 备 是 否 需 要 维修 。 典 型 的 故障 形式 包括 轴 心 偏 黎 、 机 构 松 弛 、 轴 承 失效 和 和 泵 动 不 平衡 。 某 
个 化 学 工 上 拥有 超过 1000 多 台 不 同 的 设备 ， 范 围 从 很 小 的 泵 到 非常 大 的 涡轮 交流 发 电机 ， 这 些 
设备 至 今 仍 需要 由 有 二 十 多 年 工作 经 验 的 专家 进行 诊断 。 通 过 对 设备 装置 上 的 不 同位 置 振动 的 
测量 ， 以 及 使 用 傅 里 叶 分 析 法 在 三 个 轴 向 上 检测 出 在 基本 转速 下 每 一 个 共振 所 产生 的 能 量 ， 进 
行 故障 的 判断 。 由 于 受到 测量 和 记录 过 程 的 限制 ， 所 得 到 的 信息 非常 繁杂 ， 需 要 专家 对 这 些 信 
息 进行 综合 研究 后 做 出 诊断 。 尽 管 手工 制作 的 专家 系统 已 经 在 一 些 方面 得 到 发 展 ， 由 于 得 到 诊 
断 方案 的 过 程 将 在 不 同 的 机 械 装置 上 重复 很 多 遍 ， 所 以 也 在 探索 运用 机 器 学 习 方 案 。 

600 多 个 故障 中 的 每 一 个 故障 都 是 由 一 组 测量 和 专家 的 诊断 结果 组 成 ， 这 些 诊 断 再 现 了 在 
这 一 领域 -十 年 的 经 验 。 其 中 有 一 半 由 于 不 同 的 原因 不 能 令 人 满意 ， 而 不 得 不 入 弃 ， 剩 下 的 
将 作为 训练 例子 投入 使 用 。 这 个 诊断 系统 的 目的 不 是 为 了 考查 是 否 存 在 故障 ， 而 是 要 判断 出 
是 什么 故障 。 因 此 ， 在 训练 集 里 没有 必要 包括 没有 故障 的 事例 。 由 测量 得 到 的 属性 值 是 属于 
较 低层 的 数据 ， 必 须 使 用 - 些 中 间 的 处 理 方法 将 它们 增 大 。 中 间 处 理 方法 是 一 些 基本 属性 的 
公式 ， 这 些 公式 是 专家 结合 一 些 因 果 关 系 的 领域 知识 所 制定 的 。 用 一 个 归纳 法 公式 对 衍生 出 
的 属性 进行 运算 、 从 而 产生 一 组 诊断 规则 。 一 开始 ， 专 家 并 不 满意 这 些 规则 ， 因 为 他 不 能 将 
这 些 规则 与 他 的 知识 和 经 验 相 联系 。 对 于 他 来 说 ， 统 计 的 证 据 本 身 并 不 是 一 个 充分 的 解释 。 
为 了 让 建立 的 规则 令 人 满意 ， 必 须 使 用 更 多 的 背景 知识 。 尽 管 产生 的 规则 将 会 非常 复杂 的 ， 
但 是 专家 喜欢 它 ， 因 为 他 能 够 根据 自己 的 机 械 知 识 对 它们 进行 评估 。 专 家 对 一 些 由 第 三 方 产 
生 的 规则 和 他 自己 使 用 的 规则 达成 -一致 感到 高 兴 ， 而且 愿 意 从 其 他 规则 中 获得 新 的 洞察 力 。 

从 性 能 测试 的 结果 可 以 看 出 ， 机 器 学 到 的 规则 较 优 于 由 专家 根据 以 往 的 经 验 手工 编制 的 
规则 ， 这 - -结果 在 化 学 工 广 使 用 的 效果 中 得 到 进一步 的 肯定 。 有 趣 的 是 ， 这 个 系统 的 应 用 不 
是 因为 它 有 良好 的 性 能 表现 ， 而 是 因为 由 机 器 学 到 的 规则 已 经 得 到 这 个 领域 的 专家 的 肯定 。 


1.3.5 市 场 和 销售 


- 些 最 具有 活力 的 数据 挖掘 的 应 用 是 在 市 场 和 销售 领域 。 在 这 个 领域 ， 各 个 公司 都 掌握 
着 大 量 的 精确 数据 记录 ， 这 些 数据 仅 在 最 近 才 被 认为 拥有 巨大 的 潜在 价值 。 在 这 些 应 用 中 ， 
预测 是 主要 兴趣 所 在 ， 用 于 做 出 决策 的 结构 常常 是 完全 不 相干 的 。 

我 们 已 经 提 到 有 关 客户 忠诚 度 摇摆 问题 ， 以 及 找 出 那些 可 能 会 背叛 的 客户 的 挑战 ， 因 为 
这 部 分 客户 可 以 通过 给 予 特殊 对 待 而 争取 他 们 同 来 。 银 行 是 数据 控 据 技术 较 早 的 使 用 者 ， 因 
为 数据 挖 括 的 使 用 在 信用 度 审核 方面 取得 了 成 功 。 如 今 为 减少 储户 的 流失 ， 数 据 控 扬 被 用 来 
考查 个 人 银行 业务 模型 。 这 个 模型 将 预示 出 一 个 银行 业务 的 变化 ， 甚 至 是 生活 的 变化 ， 如 移 
居 到 另 一 个 城市 ， 这 些 变化 可 能 会 导致 选择 一 个 不 同 的 银行 。 或 者 ， 一 个 通过 电话 管理 的 银 
行业 务 的 客户 群 ， 当 连续 儿 小 时 的 电话 接 通 率 较 低 时 ， 这 部 分 客户 的 流失 率 将 高 于 平均 值 。 
数据 控 气 能 为 新 推出 的 服务 找 出 所 适合 的 群体 ， 例 如 一 个 除了 在 11、12 月 以 外 很 少 从 他 们 的 
信用 卡 上 提出 现金 的 有 利 可 图 的 、 可 靠 的 客户 群 ， 他 们 愿意 为 度 个 好 假期 而 支付 高 昂 的 银行 
利息 。 在 移动 通信 和 领域， 移动 电话 公司 为 了 留 住 他 们 的 基本 用 户 群 ， 需 要 找 出 可 能 从 新 推出 
的 服务 中 获 利 的 行为 模型 ， 然 后 向 这 个 客户 群 宣传 新 服务 。 为 挽留 所 有 用 户 而 特别 提供 一 些 
激励 措施 的 代价 是 昂贵 的 。 一 个 成 功 的 数据 挖 抉 能 够 准确 的 、 有 针对 性 的 ， 对 有 可 能 产生 最 
大 利润 的 用 户 群 提供 特殊 服务 。 

购物 篮 分 析 是 使 用 关联 技术 在 交易 过 程 中 ， 特 别 是 从 超市 收银 数据 中 ， 找 出 那些 以 成 组 
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的 形式 同时 出 现 的 商品 。 对 于 许多 零售 商 来 说 ， 这 是 唯一 能 够 用 于 数据 挖掘 的 销售 信息 来 源 。 
例如 ， 对 收银 数据 的 自动 分 析 将 揭示 一 个 事实 : 那些 买 啤酒 的 客户 同时 也 买 昔 片 。 这 是 一 个 
对 超市 管理 人 员 来 说 也 许 具 有 重要 意义 的 发 现 〈 尽 管 这 是 个 很 明显 的 并 不 需要 数据 挖掘 技术 
来 揭示 的 发 现 )。 或 者 也 可 能 找 男 一 个 事实 ， 一 些 顾 客 通常 在 星期 四 买 尿 片 的 同时 也 买 啤酒 。 
这 个 起 初 令 人 吃惊 的 结论 ， 如 果 我 们 再 仔细 想 一 下 ， 考 虚 到 年 轻 父 母 为 了 在 家 度 周末 而 储藏 ， 
就 变 得 可 以 理解 了 。 这 些 信息 能 够 用 于 多 种 目的 : 规划 货架 、 仅 对 一 组 会 同时 被 购买 的 商品 
中 的 一 种 商品 进行 打折 、 当 一 个 产品 单独 销售 时 ， 提 供与 这 个 产品 相 匹 配 产 品 的 赠 券 ， 等 等 。 
认 知 顾客 个 人 的 购买 历史 记录 的 能 力 可 以 创造 出 巨大 的 附加 价值 。 事 实 上 ， 对 这 个 价值 的 追 
求 造成 折扣 卡 或 “忠诚 ” 卡 的 繁盛 ， 让 零售 商 无 论 何 时 都 能 从 购买 行为 中 鉴别 出 特殊 的 客户 。 
从 个 人 数据 中 获得 的 结论 将 比 折扣 的 现金 价值 更 高 。 对 个 别 顾客 的 鉴别 不 但 使 得 对 其 历史 购 
天 模式 进行 分 析 ， 而 且 还 能 精确 地 针对 裤 在 的 用 户 发 送 有 关 特 殊 服 务 的 邮件 。 

这 将 带领 我 们 进入 直接 的 市 场 ， 另 一 个 数据 挖掘 广泛 应 用 的 领域 。 促 销 行为 的 代价 是 昂 
贵 的 ， 它 拥有 低 的 反馈 率 ， 却 能 产生 高 额 利润 。 任 何 能 使 -个 促销 邮递 广告 更 加 紧密 集中 ， 
并 达到 给 出 尽量 少 的 样品 ， 但 是 获得 相同 或 者 几乎 相同 的 反馈 信息 的 技术 都 是 有 价值 的 。 一 
些 有 商业 价值 的 数据 库 包含 着 基于 邮政 编码 的 人 口 统计 信息 ， 邮 政 编码 定义 了 邻里 关联 的 信 
息 ， 它 能 与 现 有 的 客户 信息 相关 联 ， 从 中 找到 -个 社会 经 济 模型 ， 进 而 预测 出 哪些 客户 将 会 
转换 成 真正 的 客户 。 这 个 模型 能 够 从 -个 最 初 的 邮递 广告 反馈 信息 上 ， 预 铀 出 有 可 能 的 未 来 
客户 。 反 馈 信息 是 人 们 寄 回 的 反馈 卡 ， 或 者 拨 800 电 话 寻 求 更 多 信息 。 快 递 公司 比 大 型 购物 中 
心 的 零售 商 更 有 优势 掌握 单个 客户 的 购买 历史 ， 使 用 数据 挖掘 能 够 从 中 拷 出 那些 有 可 能 响应 
特殊 服务 的 客户 。 有 针对 性 的 竞争 比 争夺 大 市 场 的 竞争 更 经 济 ， 因 为 公司 仅 对 有 可 能 需要 产 
唱 的 客户 提供 服务 ， 为 此 公司 将 节约 大 量 资 金 。 而 机 器 学 习 能 够 帮助 人 们 找 出 针对 性 的 目标 。 


1.3.6 其 他 应 用 

现在 有 不 腑 枚 举 的 有 关机 器 学 习 的 其 他 应 用 。 这 里 我 们 将 简单 地 介绍 一 些 应 用 领域 来 说 
明 机 器 学 习 运用 领域 的 广泛 性 。 

成 熟 的 生产 制造 过 程 通常 涉及 调整 控制 参数 。 从 天 然 气 中 分 离 出 原油 是 对 石油 进行 提炼 
的 “个 必 不 可 少 的 过 程 ， 而 分 离 过 程 的 控制 是 … 个 比较 难 的 工作 。 英 国 石油 公司 使 用 机 器 学 
习 为 设置 参数 建立 规则 。 现 在 这 个 过 程 只 需要 10 分 钟 ， 而 以 往 同样 的 工作 ， 专 家 们 需要 花 -- 
天 多 的 时 间 完成 。 西 尾 公 司 (Westinghouse) 在 制造 核燃料 芯 块 的 过 程 中 ， 使 用 机 器 学 习 建立 
规则 以 控制 生产 过 程 。 据 报道 因此 他 们 每 年 节约 超过 1000 万 美元 1984 年 )。 毕 落 在 田纳西 的 
R.R. Donnelly 印 刷 公司 ， 运 用 同样 的 理论 控制 轮转 凹版 印刷 过 程 ， 降 低 了 由 人 为 因素 造成 的 
不 当 参数 设置 ， 人 为 错误 的 数量 也 由 每 年 超过 500 降 低 到 不 足 30。 

在 客户 支持 和 服务 领域 ， 我 们 已 经 讨论 过 贷款 审批 、 市 场 和 销售 应 用 。 另 一 个 例子 是 当 
-个 客户 反映 电话 通讯 故障 后 ， 电 话 公司 必须 做 出 决定 派 什么 技师 解决 问题 。 贝 尔 大 西洋 公 
司 (Bell Atlantic) 在 1991 年 开发 了 用 来 做 出 这 个 决策 的 一 个 专家 系统 已 经 在 1999 年 被 一 组 由 
机 器 学 习 得 到 的 规则 所 林 代 ， 这 -举措 降低 了 错误 决策 的 数量 ， 因 此 每 年 为 公司 节约 1000 多 
万 美元 。 

数据 控 据 也 被 用 上 许多 科学 领域 。 在 生物 学 领域 ， 使 用 机 器 学 习 能 帮助 人 们 从 每 一 个 新 
的 染色 体 中 识别 出 数 千 个 基因 。 在 生物 医学 领域 ， 使 用 机 器 学 习 技术 不 但 能 够 从 药物 的 化 学 
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属性 ， 而 且 也 能 从 它们 的 三 维 结构 上 分 析 预 测 出 药物 的 作用 。 加 速 了 药物 开发 的 进程 ， 同 时 
降低 了 开发 成 本 。 在 天 文学 领域 ， 机 器 学 习 技术 已 经 被 用 于 开发 一 个 完全 自动 的 分 类 系统 ， 
用 于 分 析 那 些 太 小 ， 不 容易 被 观察 到 的 天 体 。 在 化 学 领域 ， 机 器 学 习 被 用 来 从 核磁 共振 影像 
中 预测 出 特定 的 有 机 复合 物 的 结构 。 在 所 有 这 些 应 用 中 ， 机 器 学 习 技 术 所 达到 的 性 能 级 别 
(或 者 应 该 说 是 技能 ? ) 都 能 抗衡 或 超过 人 类 专家 。 

一 个 需要 连续 监控 的 工作 ， 对 人 类 来 说 是 一 个 耗 时 而 且 异 常 枯燥 的 工作 ， 在 这 种 情况 下 ， 
自动 化 技术 尤其 受到 欢迎 。 前 面 所 提 到 的 有 关 石 油漆 漏 的 监控 是 机 器 学 习 在 生态 方面 的 应 用 。 
其 他 的 一 些 应 用 相对 来 说 比较 间接 。 例 如 ， 机 器 学 习 正 被 用 来 根据 电视 观众 的 以 往 选择 和 节 
目 预 告 ， 来 预 而 出 观众 对 电视 频道 的 偏好 。 而 在 其 他 方面 的 一 些 应 用 甚至 能 挽救 生命 。 危 重 
病人 需要 进行 长 时 间 的 监控 ， 来 觉察 不 能 用 生理 节律 和 用 药 来 解释 的 病人 指标 变化 情况 ， 等 
等 ， 目 的 是 在 适当 的 时 候 发 出 警报 。 最 后 ， 一 个 依赖 于 易 受 攻击 的 计算 机 网 络 系统 的 世界 ， 
正 日 益 关注 网 络 安全 性 的 问题 ， 使 用 机 器 学 习 能 够 从 识别 非 正常 的 操作 模式 的 过 程 中 探测 出 
非法 入 侵 。 

1.4 机 器 学 习 和 统计 学 

机 器 学 习 和 统计 学 的 区 别 是 什么 ? 玩 世 不 恭 者 挖苦 地 把 它 看 成 是 揭示 商业 利益 (A 
局 )， 将 数据 挖 据 等 同 于 统计 加 市 场 。 实 际 上 ， 试 图 在 数据 挖掘 和 统计 之 间 寻 求 . -个 分 界线 
是 不 现实 的 ， 因 为 它 是 一 个 连续 的 、 多 维 的 数据 分 析 技术 。 其 中 … 些 技术 源 于 标准 的 统计 
课程 ， 另 外 - 些 更 紧密 地 与 源 于 计算 机 科学 领域 的 机 器 学 习 相关 联 。 从 历史 上 来 说 ， 两 方 
面 存在 些 不 同 的 惯例 。 如 果 一 定 要 指出 一 个 特别 不 同 之 处 ， 就 是 统计 学 更 侧重 于 测试 假 
说 ， 而 机 器 学 习 更 注重 于 规划 出 - -个 概括 的 过 程 ， 作 为 -个 在 全 部 可 能 的 假说 中 的 搜索 。 
但 是 这 个 解释 过 于 简单 化 .统计 学 远 不 只 是 测试 假说 ， 而 且 许 多 机 器 学 习 技 术 也 并 没有 包 
含 任何 搜索 。 

过 去 ，-- 些 非常 相似 的 方案 已 经 在 机 器 学 习 和 统计 学 上 得 到 并 行 发 展 。 其 中 -个 是 决策 
树 归纳 法 。 四 位 统计 学 家 ( Breiman 等 ) 在 20 世 纪 80 年 代 中 期 出 版 一 本 书 《 分 类 和 回归 树 》 
(Classification and regression trees)， 同 时 卓越 的 机 器 学 习 研究 学 家 J. Ross Quinlan， 在 70 年 
代 和 80 年 代 初 ， 为 从 样本 中 推导 出 分 类 树 开发 了 一 个 系统 。 这 两 个 独立 的 项 目 为 从 实例 中 建 
树 产 生 了 非常 相似 的 方案 ,但 是 研究 人 员 直 到 很 晚 才 意 识 到 互相 的 成 就 。 第 一 个 相似 的 方案 
产生 于 用 于 分 类 的 最 近邻 方法 中 。 机 器 学 习 研 究 人 员 对 -- 些 标准 的 统计 技术 进行 了 广泛 的 改 
W. 使 得 在 分 类 的 性 能 得 到 改进 的 同时 ， 提 高 了 计算 过 程 的 效率 。 我 们 将 在 第 4 章 研 究 决 策 树 

如 今 ， 机 器 学 习 和 统计 学 已 经 结合 起 来 。 在 本 书 中 ,我们 将 要 考察 的 - 些 技术 在 很 大 程 
度 上 融入 统计 的 思想 。 从 一 开始 ， 创 建 和 提炼 原始 样本 集 时 ， 就 在 数据 可 视 化 、 属性 的 选择 、 
去 除 异 常 等 等 方面 ， 运 用 标准 的 统计 法 。 大 部 分 学 习 算法 在 创建 规则 或 树 以 及 修正 “过 度 拟 
合 ”的 模型 时 ， 使 用 了 统计 的 测试 ， 过 度 拟 合 就 是 在 产生 模型 过 程 中 过 分 依赖 于 -一些 特定 样 
本 的 细节 (我们 已 经 在 图 1-3 劳 工 谈判 问题 的 两 个 决策 树 中 看 到 过 一 个 过 度 拟 合 的 例子 )， 统 
计 测 试用 来 验证 机 器 学 习 的 模型 和 评估 机 器 学 习 算 法 。 在 研究 数据 挖掘 实用 技术 时 ， 我 们 将 
学 到 大 量 的 统计 知识 。 








1.5 用 于 搜索 的 概括 


将 -个 学 习 问 题 可 视 化 的 方法 之 一 是 将 机 器 学 习 与 统计 进行 区 分 的 方式 。 设 想 一 个 在 可 ， 


能 的 概念 描述 空间 中 与 数据 相 匹 配 的 搜索 。 尽 管 以 概括 进行 搜索 的 想法 对 思索 有 关机 器 学 习 


米 说 是 “个 强大 的 概念 上 有 共 。 但 是 它 并 不 是 理解 这 本 书 中 所 描述 的 特殊 方案 的 必要 部 分 ,所 


以 ， 在 本 和 节 的 有 边 有 次 色 线条 标记 意味 着 ， “选读”。 
为 了 明确 起 见 ， 假 设 概念 是 学 习 的 结果 ， 由 -组 规则 表示 ， 像 在 1.2 节 中 有 关 天 气 问 题 的 


规则 (尽管 其 他 概念 描述 语言 也 能 同样 做 到 )。 假 定 我 们 要 列 出 所 有 可 能 的 规则 集 ， 然 后 从 中 


寻找 … 些 能 够 满足 给 定 样本 集 的 规则 。 一 个 大 工程 ? 是 的 。 不 可 能 完成 ? 乍 一 看 似乎 如 此 ， 
因为 对 可 能 产生 的 规则 数量 没有 限制 。 但 是 事实 上 可 能 的 规则 集 的 数量 是 有 限 的 。 首先 要 注 


意 ,每 个 单独 的 规则 不 能 大 于 一 个 固定 的 最 大 值 ， 每 一 个 属性 至 多 有 一 个 条 件 : 在 表 1-2 中 ， 


的 天 气 数据 总 共 包 含 了 4 个 条 件 。 因 为 可 能 的 规则 的 数量 是 有 限 的 ， 所 以 可 能 的 规则 集 的 数量 
尽管 非常 大 ， 但 也 是 有 限 的 。 然 而 ， 我 们 对 那些 拥有 非常 大 量规 则 的 规则 集 不 感 兴趣 。 实 际 
上 、 我 们 对 那些 所 包含 的 规则 数量 大 于 样本 数量 的 规则 集 不 感 兴趣 ， 因 为 很 难 想像 每 一 个 样 
本 有 -个 以 上 的 规则 。 因 此 ， 如 果 我 们 仅 考 虑 那些 小 于 样本 数量 的 规则 集 ， 那 么 问题 将 得 到 
极 大 的 简化 ， 尽 管 数量 依然 很 大 。 

对 了 表 1-3 第 一 版 本 的 天 所 问题 ， 似 邓 存 在 一 个 疡 重 的 危机 ， 因 为 规则 中 包含 了 数值 ， 所 
以 可 能 的 概念 描述 的 数量 将 趋 于 无 限 。 如 果 它 们 是 实数 ， 不 可 能 将 它们 -- aR, RB 


理论 上 也 不 可 行 。 但 是 在 样本 中 出 现 的 数字 如 果 用 数值 形式 的 分 割 所 来 表示 ， 这 些 问题 将 会 ; 


75，80，81，83 和 85， 共 12 个 不 同 的 值 ， 存 在 13 个 可 能 的 区 间 ， 可 以 为 涉及 温度 的 规则 设置 
分 割 点 。 所 以 这 个 问题 将 不 再 是 无 限 的 。 

概括 的 过 程 可 以 被 认为 是 在 -- 个 庞大 的 ， 但 是 有 限 的 搜索 空间 进行 搜索 。 原 则 上 说 ， 可 
以 枚 举 出 所 有 描述 、 从 中 剔除 一些 不 符合 样本 的 描述 ， 来 解决 问题 。 一 个 肯定 的 样本 会 去 除 


所 有 不 匹配 的 描述 ; 而 一 个 否定 的 样本 则 去 除 所 有 匹配 的 描述 。 每 个 样本 剩余 的 描述 集 缩小 


(或 与 原来 相同 )。 如 果 只 剩 下 一 个 描述 ， 那 么 它 就 是 目标 描述 (日 标 概念 )。 


如 果 剩 下 多 个 描述 ,仍然 可 以 用 来 对 未 知 的 事物 进行 分 类 。 如 果 未 知 的 事物 与 所 有 剩余 ， 


的 描述 相 匹 配 ， 它 就 应 该 被 分 到 所 匹配 的 目标 。 如 果 不 能 和 其 中 任何 一 个 相 匹配 ， 就 把 它 分 


到 日 标 概 念 以 外 。 但 是 ， 如 果 仅 和 其 中 -部 分 相 匹配 ， 就 会 出 现 模糊 。 在 这 种 情况 下 ， 如 果 ， 


末 知 事物 的 类 已 经 标 出 ， 那 么 会 导致 剩余 描述 集 缩 小 ， 因 为 那些 错 分 事物 的 规则 集会 被 拒绝 。 


151 枚 举 概念 空间 


查寻 被 认为 是 观察 学 习 过 程 的 一 个 好 方法 。 然 而 ， 查 寻 空 间 是 极 大 的 ， 尽 管 是 有 限 的 。 
WE. DOLLA TEDMGR. HOLE ARERR ERB EAE 


对 于 每 一 个 规则 存在 4x4x3x3x2=288 个 可 能 性 。 对 于 阴 畏 属性 存在 4 个 可 能 性 : sunny, 


overcast、rainy， 或 者 有 可 能 根本 没有 参与 规则 的 制定 。 同 样 ， 温 度 存 在 4 个 可 能 性 ， 刮 风 和 
湿度 分 别 有 3 个 ， 类 有 2 个 。 如 果 我 们 把 规则 集 里 的 规则 数量 限制 在 14 个 以 内 (训练 集 里 有 14 
个 样本 )， 那 就 有 可 能 产生 2.7 x 10** 不 同 的 规则 集 。 那 就 需要 枚 举 出 很 多 描述 ， 特 别 对 这 样 一 
个 明显 很 项 碎 的 问题 。 

尽管 有 一 些 方法 可 以 使 得 枚 举 的 过 程 更 可 行 ， 但 仍然 存在 一 个 严峻 的 问题 实际 上 ， 整 
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个 处 理 过 程 只 涵盖 唯 -一 个 可 接受 描述 是 很 少见 的 。 所 以 会 产生 两 种 情况 ， 样 本 在 处 理 过 后 ， 
. 仍然 存在 大 量 的 描述 ， 或 者 所 有 的 描述 都 被 去 除 。 第 一 种 情况 的 出 现 是 由 于 并 没有 充分 理解 
样本 ， 所 以 除 “正确 ” 的 一 个 以 外 的 其 他 描述 没有 被 去 除 。 实 际 上 ， 人 们 通常 想 要 找到 -个 
“最 佳 ”描述 ， 所 以 有 必要 运用 一 些 其 他 标准 从 剩余 的 描述 集中 选 出 最 好 的 一 个 。 第 二 种 情况 
| 的 出 现 是 因为 描述 语言 表达 不 充分 ， 不 能 把 担 住 真 正 的 概念 ， 或 者 是 因为 样本 中 存在 干扰。 
”如果 输 入 的 样本 由 于 一 些 属性 值 存在 错误 而 导致 一 个 “错误 ”的 分 类 ， 或 者 样本 的 类 被 标 错 ， 
“都 有 可 能 把 正确 的 描述 从 空间 中 去 除 ， 所 以 剩 下 的 描述 集 就 为 空 。 如 果实 例 中 存在 干扰 ， 这 


种 情况 非常 可 能 发 生 ， 而 且 必 然 会 发 生 ， 除 非 是 人 造 的 数据 。 

另 -种 对 作为 查询 的 概括 进行 观察 方法 ， 不 是 将 它 设 想 成 个 枚 举 出 所 有 描述 ， 并 从 中 
剔除 所 有 不 适用 的 描述 的 过 程 ， 而 是 作为 一 种 在 描述 空间 的 疏 山 行为 ， 根 据 些 预先 制定 的 
匹配 标准 ， 寻 找 最 匹配 实例 集 的 描述 。 这 是 一 种 最 实际 的 机 器 学 习 工作 方法 。 然 而 ， 除 了 


_ 些 很 琐碎 的 事例 ， 在 整个 空间 彻底 地 寻找 是 完全 不 可 行 的 。 最 实际 的 算法 应 该 包含 引导 性 的 


查询 ， 并 且 不 能 保证 找到 最 优 的 描述 。 


| 15.2 偏差 


. 把 概括 看 成 是 在 -个 所 有 可 能 的 概念 空间 的 查询 ， 就 可 以 清楚 地 指出 在 机 器 学 习 系 统 里 
最 重要 的 决策 是 : 
* 概念 描述 语言 
* 在 空间 搜索 的 次 序 


。 对 于 特定 训练 数据 避免 过 度 拟 合 的 方法 

当 计 论 查 询 的 “偏差 ”时 ， 通 常 要 提 到 这 三 个 属性 。 它 们 是 语言 偏差 (language bias), # 
询 偏差 (search bias) 和 避免 过 度 拟 合 偏差 (overfitting-avoidance )。 在 选择 一 种 表达 概念 的 语言 
了 时; 为 “个 可 以 接受 的 描述 寻找 一 个 特殊 途径 时 ;， 当 需要 对 一 个 复杂 的 概念 进行 简化 时 ， 都 


-会 使 学 习 方案 产生 偏差 。 


语言 偏差 

对 于 语言 偏差 来 说 ， 最 重要 的 问题 是 概念 描述 语言 是 否 具 有 普遍 性 ， 或 者 它 是 否 在 能 够 
被 学 到 的 概念 上 加 了 约束 条 件 。 如 果 考 虑 -个 包含 所 有 可 能 性 的 样本 集 ， 那 么 概念 就 是 将 这 
个 集合 划分 为 多 个 子 集 的 分 界线 。 在 天 气 例子 中 ， 如 果 要 枚 举 出 所 有 可 能 的 天 气 条件 ， 那 么 
概念 二 就 是 “个 所 有 可 能 的 天 气 条 件 的 子 集 。 一 个 “普遍 性 的 ”语言 应 该 能 够 表示 出 每 一 个 
可 能 的 样本 了 集 。 实 际 上， 可 能 的 样本 集 普遍 很 大 ， 从 这 方面 说 ， 这 只 是 一 个 理论 上 的 设想 ， 


“而 不 能 用 于 实际 。 


如 采 概 念 描述 语言 允许 包括 逻辑 或 ， 也 就 是 析 取 ， 那 么 任何 一 个 子 集 都 能 表示 。 如 果 描 


述 语 言 是 基于 规则 的 ， 那 使 用 分 开 的 规则 就 能 够 达到 分 离 的 目的 。 例 如 ， -个 可 能 的 概念 描 


述 仅仅 是 枚 举 样 本 : 

If outlook = overcast and temperature = hot and humidity = high 
and windy = false then play = yes 

If outlook = rainy and temperature = mild and humidity = high 
and windy = false then play = yes 

If outlook = rainy and temperature = cool and humidity = normal 
and windy = false then play = yes 

If outlook = overcast and temperature = cool and humidity = normal 
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and windy = true then play = yes 


If none of the above then play = no 


这 不 是 “个 具有 启发 性 的 概念 描述 : 只 是 简单 地 记录 了 已 经 被 观察 到 的 一些 肯 定 的 样本 ，， 
并 且 假 设 剩 下 的 都 是 否定 的 样本 。 每 “个 肯定 的 样本 被 冉 予 一 个 自身 的 规则 ， 概 念 是 规则 以 多 
re td 


味 的 概念 。 在 这 两 种 方法 里 ， 概 念 描述 并 没有 表示 出 任何 概括 ， 只 是 简单 地 记录 原始 数据 。 


然而 ， 如 果 不 允 许 使 用 逻辑 或 的 原则 ， 一 些 可 能 的 概念 (样本 集 ) 将 不 可 能 被 表达 出 来 。 


从 这 个 意义 上 上 说， 个 机 器 学 习 方案 也 许 不 会 轻易 达到 一 个 好 的 表现 。 


其 他 语言 偏差 是 因为 在 特殊 领域 所 使 用 的 知识 而 产生 的 。 例 如 ， 它 或 许 是 par 
的 组 合 ， 而 这 些 组 合 可 能 永远 不 会 发 生 。 当 一 个 属性 意味 着 另 一 个 属性 的 时 候 ， 这 种 情况 ， 


将 会 发 生 。 在 1.2 节 ， 在 为 大 豆 问题 寻找 规则 的 时 候 我 们 曾经 看 到 一 个 相关 的 例子 。 当 然 ， 


te 没有 意义 的 。 领域 知识 能 够 用 于 削减 查询 空 
。 知 识 就 是 力量 ， 即 使 是 一 点 知识 也 能 起 很 大 作用 ， 甚 至 一 个 小 小 的 线索 都 能 极 大 地 减 ， 


pees 

搜索 偏差 

在 实际 的 数据 挖 抉 问 题 中 ， 存 在 - - 些 可 选 的 概念 描述 ， 它 们 都 与 数据 相 匹 配 。 问 题 是 要 
根据 “ 些 标准 (通常 是 简单 的 标准 ) 从 中 找 出 “最 佳 ”的 一 个 。 我 们 使 用 统计 学 的 术语 拟 合 
(fit) ， 意 昧 着 寻找 一 个 与 数据 合理 拟 合 的 最 佳 描述 。 但 是 ， 要 在 整个 空间 进行 搜索 并 保证 所 
找到 的 描述 是 最 好 的 一 个 ， 通 常 从 计算 上 是 不 可 行 的 。 所 以 搜索 过 程 是 启发 式 的， 并 且 不 能 
做 出 有 关 最 终结 果 是 最 优 的 保证 。 这 为 “偏差 ”的 产生 创造 了 空间 : 不 同 的 搜索 引导 方式 以 
不 同 的 方式 在 搜索 中 产生 偏差 。 

例如 ，… 个 学 习 方案 或 许 为 规 则 的 产生 采纳 一 个 “贪心 ”搜索 ， 通 过 尝试 在 每 一 个 阶段 
找 出 最 好 的 规则 ， 然 后 把 它 加 入 规则 集 。 然 而 ， 最 好 的 对 规则 并 不 是 单独 找 出 的 两 个 最 佳 
规则 的 性 加。 或 者 当 构造 一 个 决策 树 的 时 候 ， 早 先 做 出 的 基于 一 个 特定 属性 的 分 割 ， 或 许 在 
考虑 如 何在 这 个 节点 下 发 展 树 时 会 被 认为 是 错误 的 决定 。 使 用 限定 范围 搜索 (beam search) 


解决 这 些 问 题 ， 方 法 是 不 产生 一 个 不 能 改变 的 约束 方案 ， 而 是 并 行 地 寻求 一 个 由 多 个 动态 赫 ， 


换 方案 组 成 的 集合 ， 替 换 方案 的 个 数 就 是 “ 束 宽 ”(beam width)。 这 将 使 学 习 算法 变 得 非常 复 
杂 ， 但 是 将 有 可 能 避免 与 贪心 查询 相关 联 的 短视 。 当 然 ， 如 果 束 宽 不 够 大 ， 短 视 有 可 能 发 生 。 
还 有 - 些 更 复杂 的 查询 策略 能 够 帮助 解决 这 个 问题 。 


.个 更 通用 的 和 更 高 层次 的 查询 偏差 需要 调查 查询 是 由 一 般 性 的 描述 开始 ， 再 对 它 进行 


提炼 ， 还 是 由 个 特殊 的 样本 出 发 ， 然 后 对 它 进行 推广 。 前 者 称 为 从 一 到 具体 的 过 人 
而 后 者 是 从 具体 到 - 般 的 搜索 偏差 。 许 多 学 习 算法 采用 前 一 种 策略 ， 由 一 个 空 的 决策 树 ， 或 

个 非常 般 的 规则 开始 ， 对 它 进行 具体 化 处 理 ， 使 它 与 样本 拟 合 。 然 而 ， 从 另 -- 个 方向 
对 它 进行 研究 也 是 非常 可 行 的 。 基 于 实例 的 方法 从 一 个 特定 的 样本 出 发 ,观察 它 是 如 何 被 一 
般 化 后 覆盖 同 个 类 里 的 相 邻 的 样本 。 

避免 过 度 拟 合 偏差 

避免 过 度 拟 合 偏差 是 另 一 种 形式 的 搜索 偏差 。 但 是 因为 它 涉及 一 个 比较 特殊 的 问题 ， 所 
以 我 们 将 它 加 以 区 别 对 待 。 前 面 已 经 讨论 过 逻辑 或 的 问题 ， 如 果 人 允许 包含 逻辑 或 ， 在 总 结 数 
据 的 时 候 就 会 存在 没有 用 的 概念 描述 ， 然 而 如 果 禁 止 使 用 逻辑 或 ，-- 些 概念 将 无 法 得 到 。 通 
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常 解决 这 个 问题 的 方法 是 从 “个 最 简单 的 概念 描述 出 发 ， 逐 渐 将 它 复 杂 化 : 由 简 到 繁 的 顺序 。 


.这 是 为 了 迎合 简单 的 概念 描述 ， 从 而 使 查询 产生 偏差 。 


采用 由 简 到 繁 的 查询 开始 ， 在 所 找到 足够 复杂 的 概念 描述 的 时 候 停止 ， 是 个 避免 过 度 
拟 会 的 好 方法 。 有 些 时 候 称 为 正 向 修剪 (forward pruning) 或 前 修剪 (prepruning ) ， 因 为 一 
些 摘 述 将 在 变 得 复杂 以 前 就 被 修剪 掉 。 采 用 反 向 修剪 (backward pruning) 或 称 后 修剪 (post- 
pruning) 也 是 可 行 的 。 首 先 ， 我 们 找 出 -个 与 数据 拟 合 很 好 的 描述 ， 然 后 将 它 向 回 修剪 成 一 
个 简单 的 同样 也 与 数据 拟 合 的 描述 。 看 上 去 这 是 多 余 的 一 步 ， 其 实 不 然 。 通 常 为 找 出 一 个 简 
单 的 理论 ， 首 先 需要 找到 一 个 复杂 的 ， 然 后 对 它 进行 简化 。 正 向 和 反 向 修剪 都 可 避免 过 度 拟 
合 偏差 。 

总 之 ， 作 为 查询 的 概括 是 思考 有 关 学 习 问 题 的 一 个 好 方法 ， 而 实际 操作 过 程 中 ， 偏 差 是 
唯一 使 得 它 可 行 的 方法 。 不 同 的 学 习 算法 对 应 不 同 的 概念 描述 空间 ， 并 用 不 同 的 偏差 来 查询 。 
有 趣 的 是 : 不同 的 描述 语言 和 偏差 在 解决 菜 些 问题 上 表现 突出 ， 而 在 另 一 些 问 题 上 却 差 强人 
意 。 正 如 每 个 老师 都 知道 的 ， 绝 对 好 的 学 习 方 法 是 不 存在 的 。 


1.6 数据 挖 据 和 道德 


数据 挖 括 中 的 数据 的 使 用 ， 特 别 是 有 关 人 的 数据 ， 隐 含 着 严肃 的 道德 问题 。 数 据 挖 气 技 
术 的 运用 省 必须 意识 到 围绕 在 特殊 应 用 上 的 道德 问题 ， 从 而 负责 地 使 用 它们 。 

当 使 用 对 象 是 人 时 ， 数 据 挖掘 频繁 地 用 于 区 别 待遇 : 谁 得 到 货款 ， 谁 得 到 特殊 待遇 ， 等 
等 。 某 些 形 式 的 区 别 对 待 : 如 种 族 、 性 别 、 宗 教 等 等 ， 不 仅 是 不 道德 的 ， 而 且 是 非法 的 。 然 
而、 情况 是 复杂 的 : 每 “ 件 事 取决 于 应 用 。 在 医疗 诊断 中 使 用 性 别 和 种 族 的 信息 当然 是 道德 
的 ,但 是 在 研究 贷款 支付 行为 上 使 用 同样 信息 却 是 不 道德 的 。 甚 至 在 丢弃 --- 些 敏感 信息 以 后 ， 
创建 的 模型 仍然 存在 歧视 的 风险 ， 因 为 模型 可 能 依赖 于 一 些 变量 ， 这 些 变量 是 种 族 或 性 别 特 
征 的 替代 品 。 例 如 ， 人 们 居住 的 -- 些 地 区 总 是 和 一 些 特 定 的 种 族 特征 相关 联 ， 所 以 在 一 个 数 
据 挖 斤 研 究 中 使 用 邮政 编码 就 会 使 模型 中 存在 种 族 歧 视 的 危险 ， 尽 管 一 些 种 族 信 息 已 经 明确 
地 从 数据 中 删除 。 

在 人 们 决定 提供 个 人 信息 之 前 ， 需 要 知道 如 何 使 用 这 些 信息 ， 及 使 用 这 些 信 息 的 目的 。 
采取 什么 措施 保障 这 些 信 息 的 机 密 性 和 完整 性 ， 提 供 或 者 保留 这 些 信息 会 有 什么 样 的 后 果 ， 
以 及 他 们 应 该 拥有 一些 纠正 信息 的 权利 。 无 论 何 时 在 收集 这 些 信息 的 时 候 ， 相 关 人 员 都 应 该 
被 告知 这 些 事宜 。 不 仅 是 以 种 有 法 律 效应 的 打印 件 的 形式 ， 而 是 直接 用 朴实 的 语言 ， 使 他 
们 能 够 理解 。 

数据 挖 括 技 术 的 潜在 使 用 意味 着 ， 数 据 库 里 的 数据 在 使 用 方面 会 得 到 扩展 ， 也 许 会 远 
远 超 出 在 开始 收集 数据 时 所 作 的 设想 。 这 将 产生 一 个 严肃 的 问题 ， 即 ， 必 须 明 人 确 收 集 数 据 
的 条 件 ， 以 及 使 用 日 的 。 数 据 的 拥有 者 能 把 所 收集 的 数据 用 于 收集 之 初 所 告知 的 使 用 目的 
以 外 的 其 他 方面 史 ?》 对 于 明确 地 收集 的 个 人 数据 当然 不 能 。 但 是 总 的 来 说 存在 一 些 复杂 的 
情况 。 

从 数据 挖 据 中 能 够 发 现 -… 些 令 人 惊奇 的 东西 。 例 如 ， 据 报道 法 国 的 一 个 主要 消费 团体 
已 经 发 现 ， 拥 有 红色 汽车 的 人 们 往往 不 按期 支付 他 们 的 汽车 贷款。 这 种 发 现 的 作用 是 什 
A) 它 基于 什么 信息 ? 这 些 信息 是 在 什么 条 件 下 收集 的 ?以 一 种 什么 样 的 途径 来 有 道德 地 
使 用 它 ? 显而易见 ， 保 险 公 司 在 业务 中 根据 一 些 教条 来 区 别 对 待人 群 ， 如 ， 年 轻 的 男性 支 
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付 更 多 的 汽车 保险 费 ， 这 些 教条 并 没有 完全 基于 统计 学 的 关联 ， 它 们 也 没有 包含 有 关 这 个 
世界 的 普通 常识 。 是 否 以 上 的 发 现 能 够 说 明 选 红色 的 车 的 人 的 一 些 情 况 ， 或 者 是 否 它 应 该 
被 作为 不 相关 的 部 分 加 以 抛弃 ， 这 些 都 需要 根据 人 们 对 世界 的 理解 而 不 是 纯粹 统计 的 标准 
来 做 出 判断 。 

当 你 得 到 数据 的 时 候 ， 你 需要 问 谁 可 以 使 用 它 ， 收 集 它 的 目的 是 什么 ， 以 及 什么 样 的 结 
论 是 可 以 合法 地 从 中 得 到 。 道 德 的 尺度 对 数据 挖掘 实践 者 提出 了 严峻 的 问题 。 在 处 理 数据 的 
过 程 中 ， 考 虑 使 用 一 些 社会 规范 是 非常 有 必要 的 。 一 些 标准 也 许 已 经 被 发 展 儿 十 年 或 几 个 世 
纪 ， 但 是 信息 专家 也 许 并 不 清楚 。 例 如 ， 你 知道 吗 ? 在 图 书馆 的 社区 里 ， 读 者 的 隐私 被 理 所 
当然 地 视 为 一 种 权利 ， 应 该 得 到 保护 。 如 果 你 打 电 话 给 大 学 图 书馆 ， 询 问 某 某 书 被 谁 借 走 了 ， 
他 们 将 不 会 告诉 你 。 这 将 保护 学 生 免 受 由 于 屈服 一 个 发 怒 的 教授 所 施加 的 压力 而 交 出 书 ， 而 
这 本 书 是 他 为 最 近 提 交 的 -- 份 奖学金 申请 所 急需 的 。 这 也 将 禁止 对 大 学 道德 委员 会 主席 怀疑 
的 娱乐 阅读 品位 进行 深入 探 询 。 而 创建 数字 图 书馆 的 人 或 许 并 没有 意识 到 这 些 敏感 问题 ， 为 
了 向 读者 推荐 新 书 ， 而 用 数据 挖掘 系统 分 析 数据 和 比较 个 人 的 阅读 习惯 ， 其 至 可 能 会 把 结果 
卖 给 出 版 商 。 

除了 数据 的 使 用 要 符合 社会 标准 外 ， 还 必须 使 用 符合 逻辑 的 和 科学 的 标准 来 分 析 从 中 得 
出 的 结论 。 如 果 你 确实 得 到 一 些 结 论 (如 拥有 红色 车 的 人 的 信用 风险 比较 大 )， 你 需要 对 这 些 
结论 附加 说 明 ， 这 种 说 明 要 用 非 纯粹 的 统计 报告 论据 来 支持 。 关 键 是 在 整个 过 程 中 ， 数 据 控 
WE -个 工具 。 人 们 得 到 结果 后 、 还 要 结合 其 他 知识 ， 然 后 才能 决定 采取 什么 行为 。 

数据 控 据 还 推出 了 其 他 问题 ， 当 若 虑 在 数据 挖 拥 中 使 用 到 哪些 社会 资源 时 ， 它 就 真正 成 
为 一 个 政治 的 问题 。 前 面 我 们 已 经 提 到 数据 挖 据 在 分 析 购物 得 上 的 应 用 ， 通 过 分 析 超 市 的 收 
银 记 录 ， 洞察 人 们 所 购买 的 东西 之 间 的 关联 。 所 得 到 的 信息 有 什么 用 途 ? 超市 经 理 是 否 应 该 
把 啤酒 和 蔓 片 放 在 一 起 ， 来 方便 客户 ? 或 者 将 它们 远 远 地 分 开 ， 让 客户 稍 感 不 便 ， 从 而 尽量 
延长 他 们 在 超市 的 时 间 从 而 增 大 他 们 买 未 列 入 计划 商品 的 可 能 性 ?超市 经 理 是 否 应 该 把 最 昂 
贵 的 、 利 润 最 高 的 尿 片 移 到 靠近 啤酒 的 位 置 ， 来 增加 对 被 折磨 的 父亲 们 的 高 利润 商品 的 销售 ， 
还 楼 在 边 上 加 上 高 级 婴儿 用 品 ? 

当然 ， 任 何 一 个 使 用 高 级 技术 的 人 都 应 该 深入 思考 他 们 在 做 什么 。 如 果 数 据 被 定义 为 记录 
的 事实 ， 那 么 信息 就 是 基于 数据 的 模型 集 ， 或 者 是 期 望 。 可 以 把 知识 定义 为 期 望 集 的 累积 ， 把 
智慧 定义 为 附加 在 知识 上 的 价值 。 尽 管 我 们 不 在 这 里 研究 它 ， 但 是 这 些 问题 是 值得 思考 的 。 

正如 我 们 在 这 - 章 的 一 开始 所 看 到 的 ， 在 这 本 书 中 阐述 的 技术 也 许 会 用 于 做 一 些 生 活 中 
最 复杂 ， 最 迫切 的 决定 。 数 据 挖 所 是 一 个 需要 我 们 严肃 对 待 的 技术 。 


1.7 补充 读物 


为 了 避免 打 断 正文 的 阅读 ， 所 有 文献 将 收集 在 每 一 章 的 最 后 一 节 。 第 -- 个 补充 读物 部 分 
列 出 了 在 第 1 章 中 所 涉及 的 相关 的 论文 、 书 和 其 他 资源 。 在 这 一 章 的 开始 所 提 和 到 的 人 工 受 精 的 
研究 项 目 是 牛 律 大 学 计算 实验 室 承 担 的， 奶牛 筛选 的 癸 究 项 目 是 由 新 西 兰 怀 卡 托 大 学 计算 机 
科学 系 承 担 的 。 

天 气 问题 的 例子 来 源 于 Quinlan ( 1986 年 ) ， 已 经 广泛 用 来 解释 机 器 学 习 方 案 。 从 绪论 到 
1.2 节 所 提 到 的 天 气 问 题 的 主体 部 分 出 自 Blake 等 (1998 年 )。 隐 形 眼镜 的 例子 出 自 Cendrowska 
(1987 年 )， 我 们 将 在 第 4 章 学 习 由 他 提出 的 PRISM 规 则 学 习 法 。 意 尾 花 数 据 集 出 自 一 篇 早期 的 
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在 统计 推论 方面 的 经 典 论文 (Fisher 1936 年 )。 劳 工 谈判 的 数据 来 自 《集体 谈判 评论 》 
(Collective Bargaining Review), -个 加 拿 大 工会 的 出 版 物 ， 由 工业 关系 信息 服务 发 行 (BLI 
1988 年 )。Michalski 和 Chilausky 在 1980 年 首先 记述 了 大 豆 问 题 。 

在 1.3 节 提 到 的 一些 应 用 出 自 … 篇 优秀 的 论文 ， 给 出 了 丰富 的 机 器 学 习 应 用 和 规则 归纳 法 
(Langley 和 Simon 1995 年 ) ; 另 -个 有 关 领 域 应 用 的 案例 出 自 -本 机 器 学 习 杂 志 (Kohavi 和 
Provost 1998 年 )。Michie ( 1989 年 ) 详细 曾 述 了 信贷 公司 应 用 ; 浮 油 探测 的 应 用 来 自 Kubat 等 
(1998 年 ) ; 电力 负载 预测 工作 的 应 用 源 于 Jabbour 等 (1988 年 ) ; 电子 机 械 设 备 预防 性 维护 
应 用 出 自 Saitta 和 Neri ( 1998 年 )。 在 1.3 节 提 到 的 -- 些 其 他 更 完整 的 描述 (包括 节约 的 美元 的 
数值 ， 有关 的 文献 参考 ) WA Alberta Ingenuity Centre 机 器 学 习 的 网 站 
(www.aicml.cs.ualberta.ca/About/successi1.htm 一 一 译 者 注 ) 和 欧洲 - -个 有 关机 器 学 习 的 网 络 
MLnet ( www.mlnet.org/resources/showcase.htm——i# #¢ ). 

在 Quinlan 的 “系列 论文 和 一 本 书 中 (1993 年 )， 提 到 他 的 方案 与 由 Breiman 等 在 1984 年 独 
让 出 版 的 蔬 《 分 类 和 回归 树 》 中 介绍 的 方案 相似 (第 1.4 节 )。 

第 本 有 关 数 据 挖 掘 的 拉 出 版 于 1991 年 (Piatetsky-Shapiro 和 Frawley 1991), 它 收 集 了 在 
20 世 纪 80 年 代 末 的 “个 关于 从 数据 库 里 发 现 知识 的 研讨 会 上 发 表 的 论文 。 另 本 书 出 自 1994 
年 的 “个 研讨 会 (Fayyad 等 1996 年 ) 。 还 有 : - 些 是 以 商业 为 主 的 数据 挖 据 方面 的 书 ， 它 们 主 
要 关注 于 实际 方面 的 应 用 : 如 何 把 位 于 所 使 用 的 方法 下 的 比较 表面 化 的 技术 运用 到 实际 当中 。 
它们 是 有 价值 的 应 用 和 启示 的 来 源 。 例 如 ， 来 自 Syllogic 的 Adriaans 和 Zantige (1996 年 )，- 
个 欧洲 的 系统 和 数据 库 的 咨询 服务 公司 ， 很 早 以 前 就 对 数据 挖 拨 做 过 介绍 。 来 自 宾夕法尼亚 
州 的 -一 个 专门 研究 数据 仓库 和 数据 挖 据 公司 的 Berry 和 Linoff (1997 年 )， 为 市 场 、 销 售 和 客户 
支持 给 出 了 :个 出 色 的 基于 样本 的 数据 挖掘 技术 回顾 。 五 个 来 自 IBM 跨 国 实验 室 的 研究 人 员 
(Cabena 等 1998 年 ) 用 许多 真实 世界 的 应 用 例子 概括 了 数据 控 气 的 过 程 。Dhar 和 Stein (1997 
T) 给 出 了 有 关 数 据 挖 据 在 商业 方面 的 前 景 ， 包 括 对 许多 技术 的 大 致 的 ， 通 俗 的 回顾 。 为 提 
供 数 据 控 括 软件 公司 工作 的 Groth (1998 年 ) 给 出 了 一 个 简洁 的 数据 挖掘 的 绪论 ， 然 后 对 数据 
挖 搬 软 件 产品 进行 了 完整 的 广泛 的 回顾 。 这 本 书包 括 一 张 他 们 公司 产品 演示 版 本 的 光盘 。 
Weiss 和 Indurkhya (1998 年 ) 为 他 们 称 为 “大 数据 ”的 数据 做 出 预测 ， 广 泛 研究 了 不 同 的 统计 
技术 。Han 和 Kamber (2001 年 ) 从 数据 库 的 角度 涉及 数据 控 握 ， 着 重 于 从 大 型 的 相关 数据 库 
中 发 现 知识 。 最 后 ， 这 个 领域 里 受到 广泛 尊敬 的 一 个 国际 作家 团体 Hand 等 ， 在 2001 年 撰写 一 
本 各 个 学科 在 数据 挖 搬 应 用 方面 的 书 。 

鸭 外 、 有 关机 器 学 习 的 书 往往 使 用 学 术 的 文体 ， 比 较 适 合 于 大 学 课程 而 不 能 作为 实际 应 


本 节 未 提 及 的 基因 算法 和 增强 学 习 法 。Langley 在 1996 年 写 了 -- 篇 很 好 的 文章 。 尽 管 上 面 提 到 
的 Quinlan (1993 年 ) 的 书 中 集中 讨论 :个 特殊 的 学 习 算法 C4.5， 我 们 将 在 第 4 章 和 第 6 章 中 详 
细 介 绍 ， 对 于 许多 机 器 学 习 的 门 题 和 技术 来 说 ， 它 仍 是 … 个 很 好 的 启蒙 。 从 统计 的 角度 来 看 
Hastie 等 在 2001 年 出 版 的 书 ， 绝 对 是 一 本 卓越 的 机 器 学 习 的 书 。 它 从 理论 上 来 指导 研究 ， 并 且 
采用 了 很 好 的 例证 。 

模式 识别 是 “个 与 机 器 学 习 紧 密 相关 的 主题 ， 它 运用 了 许多 相同 的 技术 。2001 年 Duda 等 
出 版 的 有 关 模 式 识 别 (Puda 和 Hart，1973 年 ) 的 第 二 版 是 -本 优秀 和 成 功 的 书 。 Ripley 
(1996 年 ) 和 Bishop (1995 年 ) 前 述 了 用 于 模式 识别 的 神经 网 络 。 用 神经 网 络 进行 数据 控 气 是 
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Bigus ( 1996 年 ) 所 著 的 书 里 的 -个 科目 ，Bigus 为 IBM 工 作 ， 这 本 书 介 绍 了 由 他 开发 的 BM 神 
经 网 络 应 用 产品 。 

如 今 很 多 人 对 支持 矢量 机 器 学 习 的 技术 感 兴趣 。 见 第 6 章 。Cristianini 利 Shawe-Taylor 
(2000 年 ) 给 出 了 -个 很 好 的 介绍 ， 细 述 了 有 关 应 用 的 附加 算法 ， 内 核 和 解决 方案 ， 并 用 模式 
找 出 生物 信息 ， 文 本 分 析 和 图 像 分 析 领 域 里 的 问题 (Shawe-Taylor 和 Cristianini 2004 年 ) 。 
Sch6lkopf 和 Smola (2002 年 ) 是 两 个 年 轻 的 研究 人 员 ， 他 们 在 这 个 迅速 发 展 的 机 器 学 习 的 分 
文 上 做 他 们 的 博士 论文 。 他 们 在 论文 中 详细 介绍 了 支持 矢量 机 器 和 有 关 的 核心 方案 。 








第 2 章 输入 : 概念 、 实 例 和 属性 


在 深入 研究 机 器 学 习 方案 如 何 运作 以 前 ， 需 要 了 解 可 以 采取 哪些 不 同形 式 的 输入 。 下 一 
章 将 介绍 会 产生 哪些 不 同形 式 的 输出 。 与 所 有 软件 系统 一 样 ， 了 解 输入 输出 分 别 是 什么 远 比 
理解 软件 如 何 工 作 更 为 重要 ， 机 器 学 习 也 不 例外 。 

机 器 学 习 的 输入 采用 概念 、 实 例 和 属性 的 形式 。 能 够 被 学 习 的 事物 称 为 一 个 概念 描述 。 
机 器 学 习 中 的 概念 ， 乍 看 上 去 就 和 学 习 一 样 ， 很 难 给 出 精确 的 定义 ， 这 里 也 不 打算 纠缠 它 是 
付 么 和 不 是 什么 的 折 学 问题 。 从 某 种 意义 上 说 ， 学 习 过 程 的 结果 即 ， 一 个 概念 的 描述 ， 正 是 
我 们 所 要 发 现 的 . 是 可 以 理解 的 〈intelligible)， 能 够 被 理解 、 商 讨 和 辩论 ， 并 且 是 可 以 操作 
MY (operational): 能 够 被 运用 到 实际 的 样本 上 上。 下 一 节 将 介绍 不 同 机 器 学 习 问 题 之 间 的 … 些 
差异 ， 这 些 养 异 在 实际 数据 挖掘 中 非常 基体， 也 非常 重要 。 

机 器 学 习 中 .信息 以 实例 集 的 形式 呈现 给 学 习 者 。 正 如 第 1 章 所 述 ， 每 一 个 实例 都 是 一 个 
将 要 被 学 习 的 、 独 立 的 概念 样本 。 当 然 ， 许 多 情况 下 原始 数据 并 不 能 由 -- 些 单一 的 、 独 立 的 
实例 表示 。 也 许 应 该 把 背景 知识 作为 输入 的 -部 分 考虑 进来 。 原 始 数据 可 能 会 以 一 大 块 的 形 
式 出 现 ， 并 不 可 以 被 拆 成 单 一 的 实例 。 原 始 数据 也 可 能 是 一 个 序列 ， 像 个 时 间 序 列 ， 如 果 
将 它 前 成 数 段 后 将 会 失去 意义 。 然 而 ， 本 书 是 有 关 数 据 挖掘 的 简单 而 实用 的 方法 ， 着 重点 在 
于 研究 那些 能 够 以 独立 样本 的 形式 出 现 的 信息 。 

每 个 实例 由 测量 实例 不 同方 面 的 - 些 属性 值 所 定性 。 属 性 存在 许多 不 同 的 类 型 ， 尽 管 
典型 的 数据 挖 据 方 案 只 处 理 数 值 属性 和 名 词性 属性 ， 或 称 范畴 属性 。 

最 后 我 们 将 考察 为 数据 挖掘 而 进行 数据 输入 准备 的 问题 ， 并 且 介 绍 一 个 与 本 书 配套 的 
Java 软 件 所 使 用 的 简单 格式 。 它 用 .个 文本 文件 表示 输入 信息 。 


2.1 概念 


在 数据 挖 据 应 用 领域 里 存在 四 种 完全 不 同 的 学 习 方式 。 分 类 学 习 (classification learning) 
是 用 -个 已 分 类 的 样本 集 来 表示 学 习 方 案 ， 并 希望 从 这 个 样本 集中 学 习 对 未 来 样本 进行 分 类 
的 方法 。 关 联 学 习 (association learning): 寻找 任何 特性 之 间 的 关联 ， 不 仅仅 是 为 了 预测 -- 
TREZI. RA (clustering): 寻找 能 够 组 合 在 - -起 的 样本 ， 并 依 此 分 组 。 数 值 预测 
(numeric prediction): 预测 出 的 结论 不 是 一 个 离散 类 而 是 一 个 数值 量 。 不 管 采 用 什么 方式 进 
行 学 习 、 这 里 将 被 学 习 的 东西 称 为 板 念 ， 由 学 习 方 案 产生 的 输出 就 是 概念 描述 。 

第 1 章 里 的 大 部 分 例子 属于 分 类 问题 。 天 气 问 题 ( 表 1-2 和 表 1-3) 是 一 组 日 期 的 集合 ， 并 
是 对 每 “天 标注 了 是 否 适合 进行 体育 活动 的 判断 结果 。 问 题 是 要 学 习 如 何 用 是 否 玩 对 新 的 
天 进行 分 类 。 存 在 于 隐形 眼镜 数据 ( 表 1-1) 里 的 问题 是 要 学 习 如 何 向 -- 个 新 的 病人 推荐 一 副 
适合 的 眼镜 、 或 者 把 问题 再 明确 -- 点 ， 因 为 这 套数 据 展 示 了 所 有 属性 值 的 组 合 ， 需 要 学 习 对 
所 给 数据 进行 总 结 的 方法 。 从 萝 尾 花 数 据 ( 表 1-4) 中 要 学 习 如 何 根据 花 坦 的 长 度 和 宽度 ， 以 
及 花瓣 的 长 度 和 宽度 推测 出 新 论 尾 花 属于 setosa、versicolor 或 virginica 中 的 哪 一 种 。 对 于 劳工 


[42] 谈判 数据 ( 表 1-6)、 要 根据 第 ~ C. “年 的 工作 时 间 长 度 、 工 资 增长 幅度 以 及 生活 费 调整 
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等 等 ， 判 断 一 个 新 的 合同 能 否 被 接受 。 

分 类 学 习 有 时 又 称 为 有 指导 (supervised) 的 学 习 ， 因 为 从 某 种 意义 上 来 说 ， 学 习 方案 是 
在 指导 下 操作 的 ， 这 里 所 说 的 指导 即 每 一 个 训练 样本 都 有 一 个 明确 的 结论 。 如 是 否 玩 的 判断 、 
推荐 的 隐形 眼镜 类 型 、 茧 尾 花 的 品种 、 劳 工 合同 的 可 接受 性 。 这 些 结论 称 为 样本 的 类 。 把 学 
到 的 概念 描述 在 一 个 独立 的 数据 测试 集 上 进行 测试 ， 已 知 这 个 测试 集 的 分 类 ， 但 是 对 于 机 器 
它 是 未 知 的 以 此 来 判断 分 类 学 习 是 否 成 功 。 在 测试 数据 上 的 成 功率 是 对 所 学 到 的 概念 的 一 
个 客观 评价 。 在 许多 实际 数据 挖掘 应 用 中 ， 衡 量 数据 挖掘 成 功 的 标准 是 以 人 类 使 用 者 对 所 学 
到 的 概念 描述 ， 规则 、 决 策 树 ， 或 其 他 任何 结果 的 接受 程度 所 决定 的 ， 是 一 个 主观 的 评价 。 

第 ! 章 的 大 部 分 例子 同样 可 以 用 于 关联 学 习 ， 关 联 学 习 中 没有 指出 特定 的 类 。 问 题 是 如 何 
从 数据 中 找 出 “有 趣 的 ”结构 。1.2 节 已 经 给 出 了 一 些 天 气 数据 的 关联 规则 。 关 联 规则 和 分 类 
规则 在 两 个 方面 存在 不 同 :关联 规则 可 以 “预测 ”任何 一 个 属性 ， 不 只 是 类 ， 也 可 以 一 次 巴 
测 一 个 以 上 的 属性 值 。 正 因为 如 此 ， 关 联 规则 的 数量 要 远 远 多 于 分 类 规则 的 数量 ， 其 中 的 问 
题 是 要 避免 被 过 多 的 关联 规则 所 困扰 。 所 以 ， 通 常 要 为 关联 规则 制定 一 个 能 够 适用 的 最 小 样 
本 数量 ， 如 80% 的 数据 集 、 并 且 还 要 大 于 一 个 特定 的 最 小 正确 率 ， 如 正确 率 为 95% 。 尽 管 如 
此 ， 仍 然 会 产生 大 量 的 规则 ， 因 此 必须 手工 验证 它们 是 否 具 有 意义 。 关 联 规则 通常 仅 包含 非 
数值 的 属性 ，… 般 不 会 从 弯 尾 花 数据 集中 寻找 关联 规则 。 

当 样本 不 存在 一 个 特定 的 类 时 ， 可 以 采用 聚 类 的 方法 将 那些 看 上 去 会 自然 落 在 一 起 的 样 
本 集合 在 -起 。 表 2-1 是 一 个 省 略 了 雍 尾 花 类 型 的 数据 版 本 。150 个 实例 很 可 能 自然 地 落 人 3 个 
与 赤 尾 伦 类 型 相对 应 的 聚 类 内 。 其 中 的 挑战 是 要 找 出 这 些 聚 类 ， 并 把 实例 分 配 到 各 个 聚 类 上 ， 
还 要 能 够 将 新 的 实例 分 配 到 相应 的 聚 类 上 。 有 可 能 一 个 或 多 个 雍 尾 花 品种 自然 地 分 成 多 个 子 
聚 类 ， 这 时 产生 的 自然 讼 类 数量 将 超过 3 个 。 聚 类 的 成 功 与 否 通常 以 所 得 到 的 结论 对 人 类 使 用 
者 是 否 有 用 来 主观 地 衡量 。 它 常 伴随 着 第 二 步 分 类 学 习 ， 所 学 到 的 规则 将 给 出 如 何 把 新 的 实 
例 安置 到 相应 罕 类 里 的 可 以 理解 的 描述 。 


表 2-1 聚 类 问题 的 芒 尾 花 数据 
HE ecm) {EEK (em) 花 斩 长 (cm) JE WERE (cm) 
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数值 预测 是 分 类 学 习 的 一 种 变 体 ， 数 值 预测 的 结论 是 一 个 数值 ， 而 不 是 一 个 分 类 。CPU 
性 能 问题 就 是 -个 预测 数值 的 例子 。 表 2-2 展 示 了 另 一 个 例子 ， 在 这 个 版 本 的 天 气 数据 里 ， 预 
测 值 不 是 玩 或 者 不 玩 ， 而 是 玩 的 时 间 (分 钟 )。 对 于 数值 预测 问题 ， 以 及 其 他 的 机 器 学 习 ， 所 
学 到 的 描述 性 的 结构 往往 比 对 新 实例 的 预测 值 更 能 引起 人 们 的 兴趣 。 这 个 结构 指出 了 哪些 是 
重要 的 属性 ， 以 及 它们 与 数值 结论 存在 什么 样 的 关系 。 


表 2-2 数值 类 的 天 气 数据 








BIO m im E a E HOO A 玩 的 时 间 (min.) 
sunny 85 85 false 5 
sunny 80 90 true 0 
Overcast 83 86 false 55 
rainy 70 96 false 40 
rainy 68 80 false 65 
rainy 65 70 true 45 
overcast 64 65 true 60 
sunny 72 95 false 0 
sunny 69 70 false "70 
rainy 75 80 false 45 
sunny 75 70 true 50 
overcast 72 90 true 55 
overcast 81 75 false 75 
rainy 71 91 true 10 
2.2 样本 


机 器 学 习 方案 的 输入 是 “个 实例 集 。 这 些 实例 由 机 器 学 习 方 案 进行 分 类 、 关 联 或 聚 类 。 
尽管 到 现在 为 止 ， 它 们 被 称 为 样本 ， 但 是 从 现在 开始 将 用 更 专业 的 术语 : 实例 ， 来 表示 输入 。 
每 一 个 实例 都 是 -个 被 用 来 学 习 的 单一 、 独 立 的 概念 样本 。 每 个 实例 由 一 组 预先 定义 的 属性 
值 来 表示 。 上 章 讨 论 过 的 所 有 数据 集 ( 天气、 隐形 眼镜 、 帝 尾 花 和 劳工 谈判 问题 ) 中 的 实 
例 都 是 这 样 产生 的 。 每 一 个 数据 集 都 可 以 表示 成 一 个 实例 与 属性 的 矩阵 ， 用 数据 库 的 术语 说 
这 是 单 - -关系 的 数据 ， 或 一 个 平面 文件 flat file). 

用 个 独立 的 实例 集 来 表示 输入 数据 是 到 目前 为 止 用 于 实际 数据 挖 据 中 最 普遍 的 方法 。 
然而 这 种 阐明 问题 的 方法 存在 - - 些 局 限 性 ， 下 面 对 局 限 性 存在 的 原因 进行 解释 。 实 例 之 间 通 
常 存在 某 种 关系 ， 并 不 真正 是 彼此 分 离 、 独 立 的 。 例 如 ， 从 一 个 给 出 的 家 族 树 上 学 习 姐 妹 的 
概念 。 想 像 你 自己 的 家 族 树 ， 并 把 你 所 有 的 家 族 成 员 (和 他 们 的 性 别 ) 分 别 放置 在 各 个 节点 
上 。 这 棵 树 ， 以 及 成 员 的 名 单 和 对 应 的 他 们 是 否 存在 姐妹 关系 的 描述 就 是 学 习 过 程 的 输入 。 

图 2-1 显 示 了 一 个 家 族 树 的 一 部 分 ， 树 下 面 的 两 个 定义 姐妹 关系 的 表格 所 用 的 方法 稍微 有 
点 不 同 。 第 二 列 里 的 yes 意 味 着 第 二 列 的 家 族 成 员 和 第 一 列 里 的 家 族 成 员 存在 姐妹 关系 。( 这 
是 -一 个 建立 在 给 定 样本 上 的 随意 判断 ) 

首先 需要 注意 的 是 左边 那 张 表 的 第 三 列 存在 很 多 no。 因 为 每 列 有 12 个 成 员 ， 所 以 总 共有 
12 x 12=144 对 成 员 ， 其 中 大 部 分 的 成 员 对 并 不 存在 姐妹 关系 。 右 边 的 表 给 出 了 同样 的 信息 ， 
但 只 记录 了 肯定 的 实例 ， 并 假设 剩余 的 都 是 否定 的 实例 。 仅 明确 指出 肯定 样本 且 采 用 一 个 不 
变 的 假设 〈 剩 下 的 都 是 否定 的 样本 ) 的 做 法 称 为 闭合 世界 假定 (closed world assumption). 
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这 是 理论 研究 中 常用 的 假设 ， 但 是 在 解决 实际 问题 时 它 并 不 实用 ， 闭 合 世 界 意味 着 包含 了 所 
有 事件 ， 而 在 实际 中 很 少 存在 闭合 的 世界 。 











Peter = Peggy Grace = Ray 
M F F M 
Steven Graham Pam = lan Pippa Brian 
M M F M F M 
Anna Nikki 
F F 
第 -人 第 -人 EA? 第 一 人 ”第 二 人 “是 姐妹 吗 ? 
Peter Peggy no Steven Pam yes 
Peter Steven no Graham Pam yes 
bee lan Pippa yes 
Steven Peter no Brian Pippa yes 
Steven Graham no Anna Nikki yes 
Steven Pam yes Nikki Anna yes 
Steven Grace no EA no 
lan Pippa yes 
Anna Nikki yes 
Nikki Anna yes | 
— 











图 2-1 一 个 家 族 树 和 两 种 表示 姐妹 关系 的 方法 
图 2-1 中 的 两 张 表 都 不 能 离开 家 族 树 单独 使 用 。 这 个 树 同样 能 够 用 表格 形式 来 表示 ， 表 2-3 
显示 了 以 表格 形式 表达 的 该 树 的 部 分 内 容 。 现 在 这 个 问题 可 以 用 两 种 关系 来 表达 。 但 是 这 些 
表 不 包含 独立 的 实例 集 ， 因 为 判断 姐妹 关系 所 依据 的 列 (姓名 、 父 母 1 和 父母 2) 的 值 需要 参 
考 家 族 树 关 系 的 行 。 表 2-4 是 把 两 张 表 合并 成 一 张 表 后 产生 出 一 个 单独 的 实例 集 。 


表 2-3 由 一 张 表 表示 家 族 树 





姓名 性 别 父母 1 父母 2 
Peter male ? ? 
Peggy female ? ? 
Steven male Peter Peggy 
Graham male Peter Peggy 
Pam female Peter Peggy 
lan male Grace Ray 
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表 2-4 在 一 张 表 中 表示 姐妹 关系 
第 一 人 第 “人 





是 姐妹 吗 ? 
姓名 tE sI EFI 父母 2 姓名 性 向 父母 ! 父母 2 

Steven male Peter Peggy Pam female Peter Peggy yes 
Graham male Peter Peggy Pam female Peter Peggy yes 
lan male Grace Ray Pippa female Grace Ray yes 
Brian male Grace Ray Pippa female Grace Ray yes 
Anna female Parn lan Nikki female Pam lan yes 
Nikki female Pam lan Anna female Pam lan yes 

其 余 no 





现在 已 经 成 功 地 把 原始 关系 问题 转换 成 实例 的 形式 ， 每 个 实例 都 是 一 个 单 --、 独 立 的 概 
念 样本 ， 这 个 样本 被 用 来 学 习 。 当 然 ， 实 例 并 没有 真正 独立 ， 在 表 的 不 同行 之 间 存 在 许多 关 
系 ， 但 是 如 果 从 姐妹 关系 的 概念 角度 考虑 ， 它 们 是 独立 的 。 许 多 机 器 学 习 方 法 在 处 理 这 类 数 
据 时 仍然 存在 问题 ， 这 些 问题 将 在 第 3.6 节 中 讨论 ， 但 是 现在 至 少 已 经 把 数据 重新 转化 为 正确 
的 形式 。 -个 姐妹 关系 的 简单 规则 是 : 

If second person's gender = female 


and first person's parentl = second person's parenti 
then sister-of = yes 


这 个 例子 说 明了 如 何 从 一 棵 树 上 获取 不 同 节点 间 的 关系 ， 并 且 转 换 成 一 个 独立 的 实例 集 。 
用 数据 库 的 术语 说 、 获 取 了 两 个 关系 ， 并 且 把 它们 结合 成 一 个 。 这 是 一 个 平整 的 处 理 过 程 ， 
技术 上 称 为 反 向 规格 化 (denormalization)。 对 一 些 存 在 (有 限 的 ) 关系 的 (有限 的 ) 集 来 说 ， 
这 个 过 程 是 可 以 实现 的 。 

表 2-4 所 示 的 结构 能 够 用 来 表示 两 个 家 庭 成 员 间 的 任何 亲属 关系 : 祖 孙 关系 、 孙 子 与 祖父 
的 兄弟 之 间 的 关系 或 其 他 关系 。 要 表示 出 更 多 家 庭 成 员 之 间 的 关系 就 需要 一 张 更 大 的 表 。 如 
果 家 庭 成 员 的 总 数 没 有 事先 明确 ， 将 对 关系 的 表示 造成 很 大 的 困难 。 假 如 要 学 习 核 心 家 庭 
(nuclear family) (父母 和 他 们 的 孩子 ) 的 概念 ， 所 包含 的 人 的 总 数 取 决 于 人 口 最 多 的 核心 家 
庭 ， 尽 管 可 以 猜测 一 个 合理 的 最 大 数字 ( 10 或 20)， 但 是 真正 的 核心 家 庭 成 员 数 量 只 能 通过 扫 
描 整 棵 树 来 找 出 。 然 而 ， 如 果 有 一 个 存在 有 限 关 系 的 有 限 集 ， 至 少 在 理论 上 ， 可 以 产生 一 个 
新 的 记录 了 家 庭 成 员 之 间 的 所 有 组 合 的 “超级 关系 ”， 无 论 有 多 少 家 庭 成 员 ， 这 个 “超级 关系 ” 
足以 表示 出 成 员 之 间 的 任何 关系 。 但是， 从 计算 和 存储 的 代价 来 说 这 种 方法 都 是 不 可 行 的 。 

反 向 规格 化 存在 的 另 一 个 问题 是 在 一 些 数据 上 产生 了 显而易见 的 规律 性 ， 而 这 些 规律 性 
完全 是 虚假 的 . 实际 上 它们 仅 是 原始 数据 库 结 构 的 再 现 。 例 如 ， 设 想 --- 个 超市 数据 库 里 存在 
一 个 顾客 和 他 所 买 商品 之 间 的 关系 ， 一 个 商品 和 供应 商 之 间 的 关系 ， 一 个 供应 商 和 供应 商 地 
址 之 间 的 关系 。 经 过 反 向 规格 化 后 将 产生 一 个 平面 文件 ， 每 一 个 实例 将 包含 顾客 、 商 品 ， 供 
应 商 和 供应 商 地 址 。-- 个 在 数据 库 中 寻找 结构 的 数据 库 控 据 工具 也 许 会 得 出 一 个 事实 : 买 啤 
酒 的 顾客 也 买 昔 片 ， 对 超市 经 理 来 说 这 是 一 个 重大 的 发 现 。 然 而 ， 它 也 许 也 会 产生 另 -一个 事 
实 : 供应 商 的 名 字 能 准确 地 “预测 ”出 供应 商 的 地 址 ， 这 个 “发 现 ” 根 本 不 可 能 引起 超市 经 
理 的 任何 兴趣 。 这 个 伪装 成 一 个 从 平面 文件 中 得 到 的 重大 发 现 的 事实 ， 已 经 由 原始 数据 库 结 
构 明 确 显现 出 来 。 

尽管 任何 真正 的 输入 实例 集 必 须 是 有 限 的 ， 但 是 许多 抽象 的 计算 问题 包含 了 -- 些 非 有 限 
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限 的 (尽管 大 得 惊人 )， 但 是 很 多 人 造 问 题 产生 的 数据 确实 是 无 限 的 。 这 听 起 来 也 许 很 深奥 ， 
但 是 这 种 现象 在 类 似 于 列表 处 理 及 逻辑 编程 等 领域 却 很 常见 ， 且 在 一 个 称 为 归纳 逻辑 编程 的 
机 器 学 习 分 支 领域 里 有 过 探讨 。 在 可 能 的 实例 数量 是 无 限 的 情况 下 ， 计 算 机 科学 家 通常 使 用 
递归 的 方法 进行 处 理 。 例 如 : 

If personl is a parent of person2 

then personl is an ancestor of person2 
If personl is a parent of person2 


and person2 is an ancestor of person3 
then personl is an ancestor of person3 


不 管 两 个 人 的 关系 有 多 远 ， 都 能 用 这 个 简单 的 祖辈 关系 的 递归 定义 来 表示 。 归 纳 逻辑 编程 技 
术 能 够 从 一 个 像 表 2-5 所 示 的 有 限 实 例 集 里 学 习 递 归 规则 。 


表 2-5 用 表 描 述 另 一 种 关系 





第 -人 第 -人 
epee eae 
姓名 性 别 父母 父母 2 姓名 性 别 父母 父母 2 
Peter male ? ? Steven male Peter Peggy yes 
Peter male ? ? Pam female Peter Peggy yes 
Peter male ? ? Anna female Pam lan yes 
Peter male ? ? Nikki female Pam lan yes 
Pam female Peter Peggy Nikki female Pam lan yes 
Grace female ? ? lan male Grace Ray yes 
Grace female ? ? Nikki female Pam lan yes 
Jefet A SR yes 
HOR no 





递归 技术 的 一 个 真正 缺陷 是 不 善于 处 理 干扰 数据 ， 除 了 一 些小 的 人 造 数据 集 外 ， 对 其 他 
数据 集 来 说 ， 它 的 处 理 速度 往往 太 慢 以 致 不 能 用 。 本 书 没有 涉及 这 个 技术 ， 但 Bergadano 和 
Gunetti (1996 年 ) 曾 提出 了 一 个 综合 处 理 法 。 

总 之 ， 一 个 数据 挖掘 方案 的 输入 是 一 个 独立 概念 的 实例 表 ， 并 将 用 丁 学 习 。 正 因为 如 此 ， 
有 人 不 悄 地 建议 应 该 称 它 为 文件 挖 据 (file mining) 而 不 是 数据 库 挖掘 (database mining). 
关系 数据 比 - 个 平面 文件 更 复杂 。 虽 然 常 常 耗费 大 量 的 空间 ， 但 是 一 个 有 限 关 系 的 有 限 集 总 
是 能 被 重新 转换 成 单个 表 。 此 外 ， 反 向 规格 化 会 从 数据 中 产生 虚假 的 规则 性 ， 所 以 有 必要 在 
实施 一 个 机 器 学 习 方 案 前 检查 是 否 存在 虚假 事实 。 最 后 ， 递 归 学 习 规 则 具有 可 以 处 理 无 限 的 
概念 的 潜在 能 力 ， 但 是 这 超出 了 本 书 的 范围 。 


2.3 属性 


每 个 单一 、 独 立 的 实例 是 由 一 组 固定 的 和 预先 定义 的 特征 或 属性 值 作为 输入 提供 给 机 器 
学 习 的 。 实 例 是 如 天 气 、 隐 有 形 眼 镜 、 志 尾 花 和 CPU 性 能 问题 的 表 的 行 ; 属性 是 列 。( 劳工 谈判 
数据 是 一 个 例外 ， 因 为 空间 的 原因 用 列表 示 实 例 ， 用 行 表示 属性 。) 

在 实际 的 数据 挖 据 所 考虑 的 问题 中 ， 一 个 固定 特征 集 的 使 用 是 一 种 限制 条 件 。 如 果 不 同 
实例 有 不 同 的 特征 会 怎样 ? 例如， 假设 实例 是 交通 工具 ， 车 轮 的 数量 是 一 个 可 以 用 于 许多 车 
辆 的 特征 ， 但 是 不 能 用 于 船只 ; 攀 杆 的 根 数 是 船只 的 特征 ， 但 不 适用 于 陆地 车 辆 。-- 种 标准 
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的 工作 方法 是 把 每 一 个 可 能 的 特征 作为 一 个 属性 ， 并 使 用 一 个 “无 关 值 ”的 标记 指出 对 于 一 
个 特定 的 案例 哪个 属性 不 适用 。 当 一 个 属性 的 存在 (如 : 配偶 的 名 字 ) 取决 于 另 一 个 属性 值 
时 (已 婚 或 未 婚 ) 就 会 出 现 类 似 的 情况 。 

一 个 特定 实例 的 一 个 属性 值 是 属性 所 对 应 部 分 的 一 个 测量 值 。 数 值 量 和 名 词性 量 之 间 存 在 
明显 的 差异 。 数 值 属性 有 时 也 称 为 连续 属性 ， 它 是 测量 到 的 实数 或 整数 值 。 需 要 注意 的 是 ， 从 
数学 的 观点 上 说 ， 整 数值 在 数学 意义 上 当然 是 不 连续 的 ， 这 里 滥用 了 连续 这 个 术语 。 名 词性 属 
性 是 从 一 个 预先 定义 的 有 限 的 可 能 值 的 集合 中 取 值 ， 有 时 候 也 称 为 范畴 属性 。 但 是 也 存在 其 他 
可 能 性 ， 在 统计 的 文章 中 经 常 介绍 “测量 标准 ”， 如 名 词性 值 、 有 序 值 、 区 间 值 和 比率 值 。 

名 词性 值 是 一 些 独特 的 符号 。 这些 值 作为 标签 或 者 名 字 使 用 ， 所 以 称 它们 为 名 词性 
(nominal )。 这 个 词 出 自 拉丁 文 name。 例 如 ， 在 天 气 数 据 中 ，out1look (PHE) 的 属性 值 是 : 
sunny、overcast 和 rainy。 这 三 个 值 之 间 没 有 隐 含 任何 关系 ， 没 有 先后 次 序 或 距离 测量 。 
把 值 进行 相 加 或 者 相 乘 ， 或 是 比较 它们 的 大 小 也 是 没有 意义 的 。 使 用 这 类 属性 的 规则 只 能 测 
试 相等 或 不 等 。 如 


outlook: sunny > no 
overcast 一 yes 
rainy > yes 


有 序 值 是 那些 有 可 能 进行 排序 的 范畴 值 。 尽 管 值 间 有 排序 的 可 能 ， 但 是 绝 不 存在 距离 。 
例如 ， 在 天 气 数据 里 ， 气 漫 (temperature) 的 属性 值 是 : AP (hot). MA (mild) 和 
WR (coo1)。 它 们 是 有 序 的 。 为 了 方便 起 见 是 否 可 以 把 它们 看 成 : 

hot>mild>cool 或 者 hot<mild<cool 


只 要 保持 连贯 性 ， 两 者 皆 可 。 重 要 的 是 要 把 温和 放 塞 在 其 他 两 个 值 之 间 。 尽 管 在 两 个 值 之 间 
进行 比较 是 有 意义 的 ， 但 是 将 它们 相 加 或 者 相 减 都 没有 意义 。hot 和 mild 之 间 的 差异 不 能 和 
mild 和 cool 之 间 的 差异 进行 比较 。 使 用 这 类 属性 的 规则 可 能 包括 一 个 比较 。 如 下 所 示 : 


temperature = hot — no 
temperature < hot 一 yes 


注意 名 词性 的 量 和 有 序 的 量 之 间 的 差异 并 不 总 是 直接 明了 的 。 实 际 上 ， 以 上 使 用 的 这 个 
有 序 量 的 样本 ， 如 outlook ， 就 并 不 十 分 清楚 ， 也 许 还 会 出 现 分 歧 意 见 ， 认 为 三 个 值 之 间 确 实 
存在 序列 。 多 云 (overcast) 可 以 被 认为 是 介 于 sunny 和 rainy 之 间 的 值 ， 它 是 天 气 由 好 转 坏 的 
一 个 过 渡 阶 段 。 

区 间 值 不 但 是 有 序 的 而 且 还 可 以 用 固定 和 相等 的 单位 进行 度量 。 温 度 就 是 一 个 很 好 的 例 
子 ， 它 用 度 表 示 (如 : 华氏 )， 而 不 是 用 cool、mild 和 hot 非 数值 的 刻度 来 暗示 。 讨 论 两 个 温度 
的 差异 是 很 明确 的 工作 ， 如 46 度 和 48 度 ， 也 可 以 与 其 他 两 个 温度 之 间 的 差异 进行 比较 ， 如 22 
度 和 24 度 。 另 一 个 例子 是 日 期 。 可 以 讨论 1939 年 和 1945 年 之 间 的 差异 (6 年 )， 甚 至 可 以 计算 
1939 年 和 1945 年 的 平均 值 (1942 年 ) ， 然 而 将 1939 年 与 1945 年 相 加 (3884)， 或 者 将 1939 年 乘 
以 3 (5817)， 都 没有 任何 意义 。 因 为 作为 开始 点 的 0 年 完全 是 腾 想 出 来 的 ， 在 历史 上 它 已 经 更 
改 很 多 次 了 。 (孩子 们 有 时 候 会 疑惑 公元 前 300 年 在 当时 是 如 何 称呼 的 。) 

比率 值 的 测量 方法 内 在 定义 了 一 个 零点 。 例 如 ， 当 测量 一 个 物体 到 另 一 个 物体 的 距离 时 ， 
物体 到 它 自身 的 距离 形成 一 个 自然 的 零 值 。 比 率 值 通常 是 实数 ， 所 以 可 以 进行 任何 数学 运算 。 
当然 将 距离 乘 以 3 也 是 合理 的 ， 两 个 距离 相 乘 将 得 到 面积 。 

然而 ， 问 题 是 一 个 “固有 ”定义 的 零点 是 否 基 于 我 们 的 科学 知识 ?科学 知识 是 和 文化 相 联 
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系 的 。 例 如 ， 华 氏 并 没有 最 低温 度 的 限制 ， 它 的 刻度 是 一 个 区 间 。 但 是 现在 我 们 把 温度 看 成 
基于 绝对 零 的 一 个 比率 值 。 用 年 来 计算 时 间 是 基于 由 文化 定义 的 零 ， 如 公元 元 年 ， 它 不 是 一 
个 比率 刻度 ， 而 是 开始 于 字 宙 大 爆炸 的 年 份 。 在 谈论 钱 的 零点 时 ， 人 们 通常 会 谈 到 某 一 物品 
要 比 另 一 种 物品 贵 一 倍 ， 但 对 于 我 们 中 间 那 些 不 断 将 信用 卡 刷 爆 的 人 来 说 ， 这 种 谈论 就 不 是 
很 有 意义 了 。 

许多 实际 的 数据 控 据 系统 只 采用 四 种 测量 标准 中 的 两 种 : 名 词性 值 和 有 序 值 。 名 词性 
属性 有 时 称 为 范畴 的 、 可 枚 举 的 或 离散 的 属性 。 枚 举 是 计算 机 科学 里 的 一 个 标准 术语 ， 
用 来 表示 一 个 范畴 的 数据 类 型 ， 但 严格 的 定义 应 该 是 它 与 自然 数字 有 一 对 一 的 对 应 关系 ， 
其 中 隐 含 了 一 个 顺序 的 关系 ， 但 是 在 机 器 学 习 中 没有 隐 含 顺序 关系 。 离 散 也 含有 顺序 的 
关系 ， 因 为 通常 需要 离散 一 个 连续 的 数量 值 。 有 序 的 属性 经 常 称 为 数值 的 或 连续 的 属性 ， 
但 是 不 存在 数学 连贯 性 的 暗示 。 名 词性 值 的 一 个 特例 是 二 分 值 ， 它 只 有 两 个 值 ， 通 常设 
计 成 如 天 气 数据 里 所 见 到 的 true 和 false， 或 者 yes 和 no 的 形式 。 这 类 属性 有 时 也 称 为 布尔 
属性 。 

机 器 学 习 系 统 可 以 使 用 许多 有 关 属 性 的 其 他 种 类 人 信息。 例如， 空间 上 的 考虑 能 够 用 来 把 
搜索 限制 在 表示 或 者 比较 那些 在 空间 上 正确 的 数据 。 循 环 的 顺序 会 影响 到 多 种 测试 方案 的 制 
定 。 例 如 ， 在 时 间 的 一 个 日 常 概念 中 ， 对 一 个 属性 是 天 (day) 的 测试 可 能 涉及 明天 、 前 天 、 
下 一 个 工作 日 、 下 周 的 同一 天 。 部 分 排序 是 一 般 或 者 具体 的 关系 ， 在 实际 中 频繁 发 生 。 这 种 
信息 通常 作为 元 数据 被 提 及 ， 元 数据 是 关于 数据 的 数据 。 然 而 ， 当 今 的 一 些 用 于 数据 挖掘 的 
实际 方案 很 少 有 能 力 将 元 数据 考虑 进来 ， 不 过 这 种 能 力 会 在 未 来 得 到 迅速 发 展 。( 第 8 章 将 讨 
论 有 关内 容 。) 


2.4 输入 准备 


在 整个 数据 挖掘 过 程 中 ， 为 数据 挖掘 研究 所 做 的 数据 输入 准备 工作 常常 要 花费 大 量 的 精 
力 。 本 书 并 不 打算 真正 讨论 数据 准备 问题 ， 只 是 指出 其 中 包含 的 一 些 问 题 ， 从 中 认识 到 它 的 
复杂 性 。 接 着 将 讨论 一 个 特殊 的 文件 输入 格式 ， 属 性 相关 文件 格式 (ARFF 格 式 )， 它 是 第 二 
部 分 Java 程 序 包 使 用 的 一 个 输入 格式 。 然 后 曾 述 在 数据 集 转换 成 ARFF 格 式 过 程 中 将 会 产生 的 
问题 ， 以 及 需要 注意 的 一 些 简 单 实际 的 要 点 。 实 验 表 明 真 实数 据 的 数据 质量 低 得 令 人 失望 ， 
所 以 被 称 为 数据 清理 的 一 个 仔细 检查 数据 的 过 程 是 数据 挖 据 的 重要 步 又 。 


2.4.1 数据 收集 


在 着 手 开始 研究 数据 挖掘 问题 之 前 ， 首 先 需 要 把 所 有 数据 集中 成 一 个 实例 集 。 在 讨论 家 
族 树 时 已 经 解释 了 将 关系 数据 进行 反 向 规格 化 的 原因 。 尽 管 它 揭示 了 数据 集中 的 基本 问题 ， 
但 是 这 种 独立 的 非 人 造 的 样本 ， 并 没有 真正 反映 出 在 实际 是 怎样 的 一 个 过 程 。 而 真正 的 商业 
应 用 需要 从 不 同 部 门 收集 数据 。 例 如 ， 在 营销 研究 中 ， 需 要 从 销售 部 门 ， 顾客 账 单 部 门 和 顾 
客服 务 部 门 收集 数据 。 
将 不 同 的 数据 源 进 行 整合 是 一 项 具有 挑战 性 的 工作 ， 虽 然 不 存在 深奥 的 原则 性 问题 ， 但 
是 处 理 起 来 却 很 环 手 。 因 为 不 同 的 部 门 也 许 使 用 不 同 的 记录 形式 、 不 同 的 习惯 、 不 同 的 时 间 
段 、 不 同 的 数据 集合 度 、 不 同 的 主键 和 不 同 的 错误 形式 。 所 以 数据 必须 集中 、 整 合 和 清理 。 
大 型 数据 整合 的 思想 称 为 数据 仓库 (data warehousing )， 数 据 仓 库 提供 了 一 个 访问 成 组 数据 的 ”[52] 
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接口 ， 它 超越 了 部 门 的 界限 。 旧 数据 在 数据 仓库 中 以 商业 决策 借用 的 方式 发 布 。 把 数据 转移 
到 数据 仓库 将 证 实 一 个 事实 : 将 各 个 部 门 在 日 常 工作 中 产生 的 一 些 部 门 级 信息 聚集 起 来 后 ， 
会 产生 出 巨大 的 战略 价值 。 显 而 易 见 ， 数 据 仓 库 的 存在 是 数据 挖掘 工作 的 一 个 非常 有 用 的 先 
决 条 件 ， 如 果 没 有 数据 仓库 ， 在 为 数据 挖掘 做 数据 准备 工作 时 ， 必 须 采 用 数据 仓库 所 包含 的 
许多 数据 处 理 步 又。 

通常 一 个 数据 仓库 所 含 的 数据 并 不 都 是 必需 的 ， 有 时 需要 越过 部 门 把 数据 和 相关 的 问题 
联系 起 来 分 析 。 例 如 ， 在 上 一 章 中 讲述 的 在 电力 负载 预测 里 考虑 天 气 数据 ， 以 及 在 市 场 和 销 
售 应 用 中 考虑 人 口 统计 学 的 数据 。 这 些 数 据 有 时 称 为 重 秋 数据 (overlay data) ， 它 通常 不 是 由 
一 个 组 织 收 集 的 ， 而 是 明显 与 数据 挖掘 问题 有 关 。 当 然 重 肥 数据 也 必须 清理 ， 并 且 要 与 其 他 
已 经 收集 到 的 数据 进行 整合 。 

数据 整合 的 另 一 个 实际 问题 是 什么 程度 的 数据 整合 是 合理 的 。 当 牛奶 农场 主 决定 出 售 哪 
些 牛 时 ， 牛 的 产 奶 量 记录 是 一 个 重要 的 决定 因素 。 每 条 牛 的 产 奶 量 由 一 个 自动 的 挤 奶 机 器 每 
天 记录 两 次 ， 所 以 需要 将 数据 进行 合并 。 同 样 ， 当 电话 公司 研究 客户 行为 时 ， 有 -一些 电话 访 
问 的 原始 数据 是 不 会 用 到 的 ， 必 须 把 这 些 数据 整合 到 客户 层 。 数 据 是 按 月 使 用 还 是 按 季度 使 
用 ， 或 者 推迟 几 个 月 或 几 个 季度 ? 选择 正确 的 数据 类 型 和 数据 整合 的 程度 通常 关系 着 数据 控 
掘 的 成 功 与 否 。 

因为 数据 整合 中 涉及 很 多 问题 ， 不 能 期 望 在 一 开始 就 取得 成 功 。 这 就 是 为 什么 数据 集中 、 
清理 、 整 合 和 一 般 的 数据 准备 工作 需要 花费 很 长 时 间 。 


2.4.2 ARFF 格 式 


现在 介绍 AREFF 文 件 ， 它 是 一 个 由 独立 的 、 无 序 的 实例 组 成 的 数据 集 的 标准 表示 方法 ， 该 
表示 方法 不 涉及 实例 之 间 的 关系 。 

图 2-2 是 表 1-3 中 天 气 数据 的 一 个 ARFF 文 件 ， 这 个 版 本 的 一 些 属 性 是 数值 属性 。 由 % 开 始 
的 行 是 注释 行 。 在 文件 开始 处 紧 接着 文件 注释 的 是 关系 的 名 称 (weather) 和 一 组 属性 的 定 
X (outlook, temperature, humidity, windy, play?). 在 名 词性 属性 后 面 括号 里 
的 是 一 组 名 词性 值 。 如 果 名 词性 值 内 包含 空格 ， 必 须 加 引号 。 数 值 属性 跟随 着 一 个 关键 字 : 
数值 的 (numeric )。 

尽管 天 气 问 题 需要 从 其 他 属性 值 中 预测 出 类 值 : play?， 但 是 在 数据 文件 中 类 属性 与 其 
他 属性 并 没有 任何 区 别 。ARFF 文 件 格式 只 给 出 了 一 个 数据 集 ， 并 没有 指出 将 要 预测 哪些 属性 。 
这 意味 着 可 以 在 同样 的 文件 上 考察 每 一 个 属性 究竟 能 否 从 其 他 属性 预测 出 ， 或 用 同样 的 文件 
来 录 找 关联 规则 和 聚 类 。 

在 属性 定义 下 以 @aata 开 始 的 行 ， 是 数据 集中 实例 数据 开始 的 标志 。 每 一 行 表 示 一 个 实 
例 ， 必 性 值 按照 属性 的 硕 序 排列 ， 并 用 逗号 隔 开 。 如 果 有 残缺 值 ， 将 由 问号 表示 (在 这 个 数 
据 集 里 没有 残缺 值 )。 在 ARFF 文 件 里 的 属性 规范 可 以 用 来 检查 数据 ， 确 保 所 有 属性 值 是 有 效 
的 ， 数 据 检 查 工作 可 以 由 读 入 ARFF 文 件 的 程序 自动 完成 。 

ARFF 格 式 除 了 有 像 天 气 数据 中 存在 的 名 词性 属性 和 数值 属性 外 , 还 有 其 他 两 种 属性 形式 : 
字符 串 属 性 和 日 期 属性 。 字 符 串 属性 的 值 是 文本 。 如 果 需 要 定义 一 个 叫 description 的 字符 串 属 
性 ， 应 该 用 如 下 形式 定义 : 


@attribute description string 
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% ARFF file for the weather data with some numeric features 
% 
@relation weather 


@attribute outlook { sunny, overcast, rainy } 
@attribute temperature numeric 

@attribute humidity numeric 

@attribute windy { true, false } 

@attribute play? { yes, no } 


@data 

多 

% 14 instances 

% 

sunny, 85, 85, false, no 
sunny, 80, 90, true, no 
overcast, 83, 86, false, yes 
rainy, 70, 96, false, yes 
rainy, 68, 80, false, yes 
rainy, 65, 70, true, no 
overcast, 64, 65, true, yes 
sunny, 72, 95, false, no 
sunny, 69, 70, false, yes 
rainy, 75, 80, false, yes 
sunny, 75, 70, true, yes 
overcast, 72, 90, true, yes 
overcast, 81, 75, false, yes 
rainy, 71, 91, true, no 








图 2-2 天 气 数据 的 ARFF 文 件 


在 一 个 实例 数据 中 ， 可 以 用 引号 包括 任意 的 字符 串 〈 如 果 在 字符 串 里 包含 引号 ， 要 在 每 
个 引号 前 加 上 反 斜 线 “ )。 字 符 串 内 在 地 存储 在 一 个 字符 串 表 中 ， 并 由 它们 在 表 里 的 地 址 表 
示 。 因 此 含有 相同 字符 的 两 个 字符 串 将 拥有 同样 的 值 。 

字符 串 属 性 包含 的 值 可 以 非常 长 ， 甚 至 可 以 是 一 个 文件 。 为 了 能 使 用 字符 串 属性 进行 文本 挖 据 ， 
有 必要 对 它们 进行 处 理 。 例 如 ， 也 许可 以 将 一 个 字符 串 属 性 转换 成 大 量 的 数值 属性 ， 字 符 串 中 的 每 
一 个 单词 对 应 一 个 数字 ， 这 个 数字 是 单词 在 字符 串 中 出 现 的 次 数 。 此 种 转换 方式 将 在 7.3 节 中 讨论 。 

日 期 属性 是 一 个 特殊 形式 的 字符 串 ， 用 以 下 方式 定义 : 

@attribute today date 
(表示 一 个 电 today 的 属性 )。Weka 是 本 书 第 二 部 分 要 讨论 的 机 器 学 习 软件 。 它 使 用 ISO-8601 标 
准 组 合 日 期 和 时 间 ， 格 式 为 : yyyy-MM-dd-THH:mm:ss, 用 4 位 数字 表示 年 ， 分 别 用 2 位 数字 表 
示 月 和 天 ， 字 母 T 以 后 各 用 2 位 数字 表示 小 时 、 分 钟 和 秒 。9 在 文件 的 数据 部 分 ， 日 期 用 相应 
的 日 期 和 时 间 的 字符 串 表 示 ， 例 如 “2004-04-03T12:00:00"”。 尽 管 它们 被 表示 成 字符 种 ， 但 是 
在 文件 读 入 时 ， 日 期 将 被 转换 成 数值 形式 。 日 期 也 可 以 内 部 转换 成 多 种 不 同 格式 ， 所 以 在 数 
据 文件 里 可 以 使 用 绝对 时 间 戳 和 一 些 转换 方法 ， 以 形成 一 天 中 的 时 间或 者 一 周 里 的 天 ， 从 而 
便于 考察 阶段 性 的 行为 。 


日 ”Weka 在 属性 定义 部 分 有 一 个 将 日 期 属性 定义 成 包含 一 个 特殊 字符 串 的 不 同 格式 的 机 制 。 
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2.4.3 FRR 

有 时 大 部 分 实例 的 很 多 属性 值 是 0。 例 如 ， 记 录 顾 客 购物 情况 的 购物 篮 数据 ， 不 管 购物 清 
单 有 多 大 ， 顾 客 购买 的 商品 都 只 占 超市 所 提供 的 一 小 部 分 。 购 物 复数 据 记 录 了 顾客 所 购买 的 
每 种 商品 的 数量 ， 除 此 以 外 的 几乎 所 有 库存 商品 的 数量 都 是 0。 数 据 文件 可 以 看 成 一 个 由 行 和 
列 分 别 表示 顾客 和 所 存储 商品 的 矩阵 ， 这 个 和 矩阵 是 稀 朴 和 矩阵， 几乎 所 有 的 项 都 是 0。 另 一 个 例 
子 出 现在 文本 挖掘 中 ， 这 里 的 实例 是 文档 。 而 矩阵 行 和 列 分 别 表示 文档 和 单词 ， 用 数字 表示 
一 个 特定 的 单词 在 文章 中 出 现 的 次 数 。 由 于 大 部 分 文章 的 词汇 量 并 不 大 ， 所 以 很 多 项 也 是 0。 

明确 地 表示 出 一 个 稀 朴 矩阵 的 每 一 项 并 不 实际 。 下 面 按 序 表示 每 个 属性 值 : 


0, 26, 0, 0，0，0，63，0，0， 0, “class A” 
0, 0, O, 42, 0, 0, 0, 0, 0, O, “class RB” 


作为 代替 的 另 一 种 表示 方法 是 将 非 0 值 属性 用 它 的 属性 位 置 和 值 明确 标 出 。 如 : 


{1 26, 6 63, 10 “class a”} 
{3 42, 10 “class B”} 


收集 每 一 个 非 0 值 属性 的 索引 号 (索引 从 0 开始 ) 和 属性 值 ， 并 将 每 一 个 实例 包含 在 大 括号 里 。 
在 ARFF 文 件 格式 里 ， 稀 疏 数 据 文 件 包含 相同 的 erelation 和 eattribute 标 签 ， 紧 接着 是 
一 个 edaata 行 ， 但 是 数据 部 分 的 表示 方法 不 同 ， 由 以 上 所 示 的 在 大 括号 里 用 明确 表述 的 方法 
表示 。 注 意 省 略 的 值 都 是 0， 它 们 并 不 是 “残缺 ” 值 ! 如 果 存 在 一 个 未 知 值 ， 它 必须 用 一 个 问 
号 明确 地 表示 出 来 。 


2.4.4 属性 类 型 


ARFF 文 件 格式 允许 两 种 基本 数据 类 型 : 名 词性 值 和 数量 值 。 字 符 串 和 日 期 属性 实际 上 也 
分 别 是 名 词性 值 和 数量 值 ， 尽 管 字符 串 在 使 用 以 前 通常 需要 转换 成 数值 形式 ， 如 字 向 量 。 但 
是 对 两 种 基本 类 型 的 诠释 方法 取决 于 所 使 用 的 机 器 学 习 方案 。 例 如 ， 很 多 机 器 学 习 方案 把 数 
值 属性 作为 有 序 的 刻度 处 理 ， 并 且 仅 在 数值 间 进 行 小 于 和 大 于 的 比较 。 然 而 ， 另 一 些 将 它们 
作为 比率 值 处 理 ， 并 且 使 用 距离 计算 。 所 以 将 数据 用 于 数据 挖 据 以 前 ， 要 理解 机 器 学 习 方法 
的 工作 原理 。 

如 果 机 器 学 习 法 处 理 数值 属性 是 用 比率 值 测 出 的 ， 将 会 引出 一 个 标准 化 的 问题 。 属 性 值 
通常 被 标准 化 成 一 个 固定 的 范围 ， 如 从 0 到 1， 把 所 有 的 值 除 以 所 有 出 现 的 值 中 最 大 的 一 个 ， 
或 者 先 减 去 一 个 最 小 值 ， 然 后 除 以 最 大 和 最 小 值 之 差 。 另 一 个 标准 化 技术 是 计算 属性 值 的 统 
计 平均 值 和 标准 差 ， 把 每 一 个 值 减 去 统计 平均 值 后 除 以 标准 差 。 这 个 过 程 称 为 将 一 个 统计 变 
量 标准 化 ， 并 且 所 得 到 的 是 平均 值 是 9， 标 准 差 是 1 的 值 的 集合 。 

一 些 机 器 学 习 方案 ， 如 各 种 基于 实例 的 不 同 的 机 器 学 习 和 回归 方法 只 能 处 理 比率 值 ， 因 
为 它们 根据 属性 的 值 计算 两 个 实例 之 间 的 “距离 "。 如 果实 际 的 值 是 有 序 的 ， 必 须 定义 一 个 数 
值 距 离 公式 。 一 种 处 理 方法 是 使 用 两 层 的 距离 : 1 表示 两 个 值 不 同 ，0 表 示 相 同 。 任 何 名 词性 
值 都 能 够 作为 数值 用 距离 公式 处 理 。 但 它 是 一 个 有 点 粗糙 的 技术 ， 掩 盖 了 实例 间 真 正 不 同 的 
程度 。 另 一 种 可 行 的 方法 是 为 每 一 个 名 词性 属性 建立 综合 的 二 值 属 性 。 有 关内 容 将 在 6.5 节 使 
用 树 进行 数值 预测 时 涉及 。 

有 时 名 词性 值 和 数值 之 间 存 在 真正 的 映射 关系 。 例 如 ， 邮 政 编码 指定 的 区 域 可 以 用 地 理 
坐标 来 表示 ; 电话 号 码 的 前 几 位 也 有 相同 功能 ， 它 与 所 在 的 区 域 相 关 。 学 生 证 号 码 的 前 两 位 








E28 BA: BA. FARRER 37 


数 也 许 是 学 生 人 学 的 年 份 。 

实际 的 数据 集 普遍 存在 名 词性 值 作 为 整数 编码 的 情形 。 例 如 ， 一 个 整数 形式 的 标识 符 也 
许 用 来 作为 一 个 属性 的 代码 ， 如 零件 号 码 ， 但 是 这 些 整数 值 不 能 用 于 小 于 或 大 于 的 比较 。 如 
果 是 这 样 ， 明 确 指出 属性 是 名 词性 值 而 不 是 数值 是 非常 重要 的 。 

把 一 个 有 序 值 作为 名 词性 值 处 理 是 可 行 的。 实际 上 ， 许 多 机 器 学 习 方 案 只 处 理 名 词性 值 。 
例如 ， 在 隐形 眼镜 问题 里 ， 年 龄 属性 就 是 作为 名 词性 值 来 对 待 的 ， 所 产生 的 一 部 分 规则 如 下 : 


If age = young and astigmatic = no and 

tear production rate = normal then recommendation = soft 
If age = pre-presbyopic and astigmatic = no and 

tear production rate = normal then recommendation = soft 


事实 上 年 龄 (特别 是 这 种 形式 的 年 龄 ) 是 一 个 真正 的 有 序 值 ， 可 以 用 以 下 方式 表示 : 
young < pre-presbyopic < presbyopic 
如 果 将 它 作为 有 序 值 对 待 ， 那 么 上 面 两 条 规则 就 可 以 合并 成 一 个 : [57 | 


If age < pre-presbyopic and astigmatic = no and 
tear production rate = normal then recommendation = soft 


这 是 一 个 更 紧凑 ， 更 满意 的 表示 相同 含义 的 方法 。 


2.4.5 残缺 值 


实际 中 遇 到 的 很 多 数据 集 包含 残缺 值 ， 例 如 表 1-6 中 的 劳工 谈判 数据 。 残 缺 值 通常 是 指 超 
出 正常 范围 ， 可 能 会 在 正常 值 是 正 数 的 位 置 出 现 一 个 负数 (如 : 1)， 或 在 一 个 正常 情况 下 
不 可 能 出 现 0 值 的 位 置 出 现 0。 对 于 名 词性 属性 ， 残 缺 值 可 能 会 由 空格 或 横 线 表示 。 如 果 需 要 
对 不 同形 式 的 残缺 值 加 以 区 别 (如: 未 知 、 未 记录 、 无 关 值 )， 可 以 用 不 同 的 负 整 数 表示 
(-1, -2%). 

必须 仔细 研究 数据 中 残缺 值 的 意义 。 残 缺 值 的 出 现 有 多 种 原因 。 例 如 ， 测 量 设备 出 现 故 
障 ， 在 数据 收集 过 程 中 改变 了 试验 方法 ， 整 理 儿 个 相似 但 不 相同 的 数据 集 。 被 访问 者 在 访问 
中 也 许 会 拒绝 回答 某 些 问 题 ， 如 年 龄 或 收入 。 在 考古 研究 领域 ， 一 个 样本 ， 如 一 个 头盖骨 被 
损坏 了 ， 导 致 某 些 参数 不 能 测 出 。 在 生物 学 研究 领域 ， 所 有 参数 在 测量 以 前 ， 植 物 或 动物 就 
已 经 死 了 。 这 些 情况 的 出 现 对 纳入 考虑 之 中 的 样本 意味 着 什么 ? 也许 头盖骨 的 损坏 有 某 种 意 
义 ， 或 者 仅仅 是 随机 的 事件 ”植物 已 死去 这 个 事实 有 意义 或 是 相反 ? 

很 多 机 器 学 习 的 方案 隐 含 地 假设 ， 一 个 实例 的 某 个 属性 值 残 缺 并 没有 特别 意义 ， 这 个 值 
只 是 未 知 而 已 。 然而， 这 个 值 为 什么 残缺 也 许 会 有 一 个 很 好 的 理由 ， 可 能 是 基于 所 了 解 的 信 
息 而 做 出 的 决策 ， 不 执行 某 些 特定 测试 。 如 果 是 这 样 ， 这 其 中 提供 的 关于 实例 的 信息 要 比 仅 
仅 了 解 有 残缺 值 这 个 事实 多 得 多 。 如 果 是 这 样 ， 也 许 将 属性 的 可 能 值 记 录 为 “未 测试 ”更 为 
妥当 ， 也 可 将 此 作为 数据 集中 的 另 一 个 属性 。 上 面 的 例子 说 明 ， 只 有 熟悉 数据 的 人 才能 做 出 
一 个 明智 的 判断 : 一 个 特定 值 的 残缺 是 否 存在 一 些 特 别 的 意义 ， 是否 应 该 将 它 作 为 一 个 一 般 
的 残缺 值 进 行 处 理 。 当 然 ， 如 果 存 在 儿 种 类 型 的 残缺 值 ， 那 就 意味 着 出 现 了 异常 状 咒 ， 需 要 
调查 具体 原因 。 

如 果 残 缺 值 意味 着 一 个 操作 员 曾 经 决定 不 进行 一 个 特定 的 测量 ， 那 么 它 将 传达 出 较 之 这 
个 值 是 未 知 的 这 个 事实 更 多 的 信息 。 例 如 ， 人 们 在 分 析 医 学 数据 库 时 已 经 注意 到 ， 一 般 情况 
下 病情 的 诊断 是 按照 医生 决定 所 做 的 测试 的 结果 ， 但 是 有 时 候 ， 医 生 不 需要 知道 测试 结果 就 [58] 








38 EHD REFILASHK 





可 以 做 出 诊断 。 在 这 种 情况 下 ， 带 有 某 些 残缺 值 的 记录 是 做 一 个 完整 诊断 所 需 的 全 部 ， 那 些 
实际 值 可 以 被 完全 忽略 。 


2.4.6 不 正确 的 值 


仔细 检查 数据 挖掘 文件 从 中 找 出 不 良 的 属性 和 属性 值 是 非常 重要 的 工作 。 数 据 挖掘 中 使 
用 的 数据 并 不 是 为 了 数据 挖 据 而 收集 的 。 在 最 初 收集 数据 时 ， 数 据 的 某 些 方面 可 能 并 不 重要 ， 
所 以 留 下 空白 或 没有 被 检查 。 由 于 这 样 不 会 对 收集 数据 的 初 圳 造成 任何 影响 ， 所 以 不 用 更 正 
它 。 然 而 ， 当 这 个 数据 库 用 于 数据 挖掘 时 ， 错 误 和 省 略 的 部 分 立刻 变 得 相当 重要 。 例 如 ， 银 
行 并 不 真正 需要 知道 客户 的 年 龄 ， 所 以 它们 的 数据 库 中 也 许 会 存在 许多 残缺 或 不 正确 的 (有 
关 年 龄 的 ) 值 。 但 是 在 由 数据 挖 抉 得 到 的 规则 中 ， 年 龄 也 许 会 成 为 一 个 非常 重要 的 特性 。 

数据 集 的 印刷 错误 显然 会 造成 不 正确 的 值 。 通 常 表现 为 名 词性 属性 的 值 被 拼 错 ， 这 将 为 
名 词性 属性 制造 一 个 额外 的 值 。 或 者 不 是 拼 错 ， 而 是 一 个 同义词 ， 如 百事 和 百事 可 乐 。 很 明 
显 ， 一 个 事先 定义 的 格式 ， 如 ARFF 格 式 的 优势 在 于 可 以 检查 数据 文件 以 保证 数据 内 部 的 连贯 
性 。 然而， 在 原 数据 文件 中 出 现 的 错误 通常 会 经 过 转换 过 程 保存 到 用 于 数据 挖 据 的 文件 里 。 
因此 每 一 个 属性 所 拥有 的 可 能 值 的 列表 都 应 该 仔细 检查 。 

印刷 或 测量 在 数值 上 造成 的 错误 通常 会 导致 超出 范畴 的 值 ， 可 以 通过 一 次 取 一 个 变量 进 
行 作 图 的 方法 检查 错误 。 错 误 的 值 往往 会 远离 一 个 由 其 余 的 值 构成 的 模式 。 当 然 ， 有 时 候 要 
找 出 错误 值 是 困难 的 ， 尤 其 是 在 一 个 不 熟悉 的 知识 领域 里 。 

重复 的 数据 是 另 一 种 错误 源 。 如 果 数 据 文件 中 的 一 些 实例 是 重复 的 ， 很 多 机 器 学 习 工 具 
将 会 产生 不 同 的 结果 ， 因 为 重复 将 对 结果 产生 很 多 影响 。 

人 们 在 向 数据 库 输 入 个 人 数据 时 常常 会 故意 制造 一 些 错误 。 他 们 也 许 会 在 拼写 他 们 的 地 
名 时 做 一 些小 的 改动 ， 试 图 确认 他 们 的 信息 是 否 会 被 出 售 给 广告 商 ， 而 使 他 们 收 到 大 量 的 垃 
圾 邮件 。 如 果 以 前 一 些 人 的 保险 申请 曾经 被 拒绝 过 ，、 也 许 他 们 会 在 再 次 申请 保险 时 修正 他 们 
名 字 的 拼写 。 严 格 的 计算 机 化 的 数据 输入 系统 通常 强制 性 地 要 求 输入 一 些 信息 。 例 如 ， 一 个 
外 国人 在 美国 租车 时 ， 计 算 机 坚持 要 他 在 美国 的 邮政 编码 。 可 是 他 来 自 其 他 国家 ， 根 本 没有 
美国 的 邮政 编码 。 万 般 无 奈 之 下 ， 操 作 人 员 建 议 他 使 用 租车 公司 的 邮政 编码 。 如 果 这 是 很 普 
遍 的 做 法 ， 那 么 在 以 后 的 数据 挖掘 中 将 出 现 一 群 客户 的 地 址 和 租车 公司 在 同一 区 域 。 同 样 ， 
超市 出 纳 员 有 时 会 在 顾客 不 能 提供 购物 卡 时 使 用 他 们 自己 的 购物 卡 ， 为 了 让 顾客 得 到 折扣 ， 
或 者 是 为 了 在 出 纳 员 的 账户 上 增加 积分 。 只 有 深入 了 解 有 关 的 背景 知识 ， 才 能 够 解释 如 上 所 
示 的 系统 性 的 数据 错误 。 

最 后 ， 数 据 也 存在 有 效 期 。 随 着 周围 情况 的 变化 ， 数 据 也 会 发 生变 化 。 例 如 ， 邮 件 单 里 
的 姓名 ， 地址， 电话 号 码 等 项 就 经 常会 发 生变 化 。 所 以 在 数据 挖 据 里 需要 考虑 用 于 挖 据 的 数 
据 是 否 依 旧 有 效 。 


2.4.7 了 解数 据 


在 数据 挖 据 中 有 必要 加 强 对 数据 的 理解 。 - 些 可 以 显示 名 词性 属性 值 的 柱状 分 布 图 ， 和 
数值 属性 值 的 分 布 图 (也 许 将 实例 进行 排序 ， 或 绘图 ) 的 简单 工具 都 有 助 于 理解 数据 。 用 图 
形 的 方式 将 数据 可 视 化 能 够 方便 地 鉴别 出 界外 值 ， 是 一 个 很 好 的 表示 数据 文件 中 错误 的 方法 ， 
也 为 非 正 常情 况 的 编码 提供 了 很 大 的 便利 。 如 用 9999 表 示 一 个 残缺 的 年 或 - 1kg 表 示 一 个 残缺 
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的 重量 ， 人 们 并 没有 提供 这 些 表示 法 的 说 明 。 还 需要 与 领域 的 专家 商量 来 解释 反常 的 、 残 缺 
的 值 ， 以 及 那些 用 整数 表示 范畴 而 不 是 真正 数量 值 的 重要 性 ， 等 等 。 将 属性 值 两 两 进行 坐标 
投影 ， 或 者 将 各 个 属性 与 对 应 的 类 值 进行 坐标 投影 都 将 有 助 于 对 数据 的 理解 。 

数据 清理 是 一 个 费时 费力 的 过 程 ， 却 是 成 功 的 数据 挖掘 所 绝对 必要 的 。 人 们 经 常 放弃 一 
些 大 型 的 数据 集 ， 就 是 因为 他 们 没有 可 能 完全 核对 数据 。 取 而 代 之 ， 可 以 抽取 一 些 实例 仔细 
研究 ， 从 中 会 得 到 惊人 的 发 现 。 所 以 花 一 些 时 间 来 审视 数据 是 值得 的 。 


2.5 补充 读物 


Pyle (1999 年 ) 为 数据 挖掘 提供 了 一 个 详尽 的 数据 准备 的 指导 。 现 在 许多 人 对 数据 仓库 
和 它 所 呈现 出 来 的 问题 很 感 兴趣 。 据 我 们 所 知 Kimball ( 1996 年 ) 对 此 类 问题 做 的 阐述 是 最 好 
的 。Cabena (1998 年 ) 等 认为 数据 准备 的 工作 量 在 一 个 数据 挖掘 应 用 中 占 到 60% ， 他 们 也 谈 
到 其 中 所 包含 的 -- 些 问题 的 工作 量 。 

Bergadano 和 Gunetti (1996 年 ) 对 处 理 有 限 和 无 限 关 系 的 归纳 罗 辑 编程 进行 了 研究 。 
Stevens (1946 年 ) 引入 了 有 关 属 性 的 不 同 “ 测 量 等 级 ” 的 概念 ， 并 且 在 统计 包 (如 SPSS， 
Nie 等 ，1970 年 ) 的 相关 手册 里 进行 了 详尽 的 阐述 。 








第 3 章 输出 : 知识 表达 


本 书 提供 的 大 部 分 数据 挖 据 技 术 能 轻易 地 产生 出 一 些 可 理解 的 描述 ， 而 这 些 描述 是 关于 
数据 中 的 结构 模式 的 。 在 了 解 这 些 数 据 挖掘 技术 是 如 何 工 作 以 前 ， 首 先 必 须知 道 数据 中 的 结 
构 模 式 是 如 何 表达 的 。 机 器 学 习 所 能 发 现 的 模式 有 许多 不 同 的 表达 方式 ， 每 … 种 方式 就 是 一 
种 推断 数据 输出 结构 的 技术 。 一 旦 理解 了 输出 结构 的 表示 方法 ， 就 向 数据 输出 结构 是 如 何 产 
生 的 理解 前 进 了 -- 大 步 。 

在 第 1 章 中 给 出 了 很 多 数据 挖掘 的 例子 , 这 些 例子 的 输出 采用 的 形式 是 决策 树 和 分 类 规则 ， 
这 是 许多 机 器 学 习 法 所 采用 的 基本 知识 表达 形式 。 对 -个 决策 树 或 者 一 个 规则 的 集合 而 言 ， 
知识 是 一 个 名 不 副 实 的 词 ， 在 这 里 用 这 个 词 并 不 意味 着 我 们 想 要 暗示 这 些 结构 胜 过 浮现 在 我 
们 脑海 里 的 真正 的 知识 ， 只 是 需要 用 一 个 词 描绘 由 机 器 学 习 方法 产生 出 的 结构 。 在 一 些 更 加 
复杂 的 规则 中 允许 使 用 例外 ， 可 以 表示 不 同 实例 的 各 个 属性 值 之 间 的 关系 。 一 些 特殊 形式 的 
决策 树 能 用 来 预测 数值 。 基 于 实例 的 表达 方法 则 着 重 于 研究 实例 本 身 ， 而 不 需要 像 规 则 一 样 ， 
分 析 实 例 的 属性 值 。 最 后 ， 还 有 一 些 机 器 学 习 方 法 会 产生 出 一 些 实例 的 聚 类 。 这 些 不 同 的 知 
识 表达 方法 是 与 第 2 章 中 介绍 的 不 同 机 器 学 习 问 题 相 对 应 的 。 


3.1 决策 表 

表示 机 器 学 习 输 出 结构 的 最 简单 、 最 基本 的 方法 是 采用 和 输入 同样 的 形式 一 -决策 表 
(decision table)。 例 如 ， 表 1-2 是 个 天 气 数据 的 决策 表 ， 只 需要 从 中 寻找 一 些 适合 的 条 件 来 
确定 是 否 运动 。 为 了 更 简化 些 ， 建 立 个 决策 表 也 许 需 要 涉及 属性 选择 的 问题 。 例 如 ， 如 果 
温度 属性 和 决策 无 关 ， 形 成 更 小 的 、 扼 要 的 表 就 是 一 个 很 好 的 决策 表 。 当 然 关键 问题 是 要 确 
定 去 除 哪 些 属性 而 不 会 影响 最 终 的 决策 。 


3.2 决策 树 


-个 “分 治 法 ”用 于 从 独立 实例 集 学 习 的 方法 ， 自 然 引 伸 出 一 个 称 为 决策 树 (decision 
tree) 的 表达 形式 。 我 们 已 经 看 到 了 一 些 决 策 树 的 例子 ， 如 隐形 眼镜 (图 1-2) 和 劳工 谈判 
(图 1-3) 数据 集 。 个 决策 树 上 的 节点 包含 了 对 某 个 特定 属性 的 测试 。 一 般 来 说 ， 在 一 个 节 
点 上 的 测试 是 将 一 个 属性 值 与 一 个 常量 进行 比较 。 然 而 ， 有 一 些 树 节点 上 的 测试 是 在 两 个 属 
性 之 间 进 行 比较 ， 或 者 使 用 一 个 包含 一 个 或 多 个 属性 的 函数 公式 进行 比较 。 叶 节点 对 所 有 到 
达 叶 子 的 实例 给 出 一 个 分 类 ， 或 是 一 组 分 类 ， 或 是 一 个 包括 了 所 有 可 能 分 类 的 概率 分 布 。 当 
对 - -个 未 知 实例 进行 分 类 时 ， 将 根据 在 各 个 连续 节点 上 对 未 知 实例 的 属性 值 测试 的 结果 ， 自 
上 而 下 地 从 树 上 寻找 出 一 条 路 径 ， 当 实例 到 达 叶 子 时 ， 实 例 的 分 类 就 是 叶子 所 标注 的 类 。 

如 果 在 -个 节点 上 测试 的 属性 是 名 词性 属性 ， 那 么 在 这 个 节点 之 下 产生 的 分 支 的 个 数 就 
是 这 个 名 词性 属性 所 有 可 能 属性 值 的 个 数 。 在 这 种 情形 下 ， 因 为 每 个 可 能 的 名 词性 属性 值 对 
应 “个 分 支 ， 所 以 相同 的 名 词性 属性 将 不 会 在 以 后 的 建树 过 程 中 再 次 被 测试 。 而 有 些 时 候 ， 
名 词性 属性 值 被 分 成 两 个 子 集 ， 那 么 就 只 能 产生 两 个 分 支 ，( 实例 的 分 配 ) 取决 于 属性 值 所 在 
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的 子 集 。 在 这 种 情况 下 ， 一 个 名 词性 属性 也 许 会 在 一 条 路 径 上 被 不 止 一 次 地 铀 试 。 

如 果 属 性 是 数值 属性 ， 那 么 在 一 个 节点 上 的 测试 通常 是 判断 这 个 数值 是 否 大 于 或 者 小 于 [62] 
某 一 个 事先 定义 的 常量 ， 给 出 一 个 二 又 分 裂 (two-way split)。 或 者 也 可 能 使 用 三 又 分 裂 ， 将 
会 出 现 多 个 不 同 的 可 能 性 。 如 果 把 残缺 值 也 作为 一 个 独立 的 属性 值 看 待 ， 那 么 将 会 产生 出 第 
三 个 分 支 。 对 于 一 个 整数 的 数值 属性 的 另 一 种 处 理 方 法 ， 是 用 小 于 、 等 于 和 大 于 实行 三 叉 分 
裂 。 而 对 于 实数 值 的 数值 属性 来 说 ， 等 于 的 操作 并 没有 实际 意义 ， 所 以 在 实数 上 的 测试 应 该 
是 用 一 个 区 间 而 不 是 一 个 常量 ， 同 样 也 可 以 用 落 在 区 间 以 下 、 区 间 内 和 区 间 以 上 的 判断 实行 
三 又 分 裂 。 一 个 数值 属性 通常 要 在 给 出 的 任何 一 条 从 树 根 到 叶子 的 路 径 上 被 测试 多 次 ， 每 一 
次 测试 都 会 采用 一 个 不 同 的 常量 。6.1 节 将 详细 讨论 处 理 数值 属性 的 方法 。 

残缺 值 是 一 个 显而易见 的 问题 。 当 在 一 个 节点 上 所 测试 的 属性 值 残缺 时 ， 就 不 能 确定 应 
该 将 它 分 配 到 哪个 分 支 上 。 正 如 第 2.4 节 所 讨论 的 ， 有 时 将 残缺 值 作为 属性 的 一 个 独立 的 值 来 
处 理 。 和 否则 就 应 该 采用 一 个 特殊 的 残缺 值 的 处 理 方法 ， 而 不 是 仅仅 把 残缺 值 当 作 属 性 可 能 拥 
有 的 另 一 个 可 能 值 。 一 个 简单 的 解决 方法 是 记录 训练 集中 到 达 每 个 分 支 的 实例 数量 ， 如 果 一 
个 测试 实例 的 值 残缺 ， 就 将 它 分 配 到 获得 最 多 实例 的 那个 分 支 上 。 

一 个 更 成 熟 的 解决 方法 是 将 实例 分 裂 成 几 个 部 分 ， 然 后 分 别 将 它们 分 配 到 下 面 的 每 个 分 
支 上 ， 并 且 由 此 向 下 ， 直 到 到 达 子 树 所 包含 的 叶子 。 分 裂 过 程 采用 0 到 1 之 间 的 权 值 来 完成 ， 
一 个 分 支 所 拥有 的 权 值 与 到 达 这 个 分 支 的 训练 实例 成 比例 ， 所 有 权 值 之 和 为 1。 一 个 加 权 的 实 
例 也 许 在 较 低 的 节点 上 会 再 次 被 分 裂 。 最 后 ， 实 例 的 不 同 部 分 将 分 别 到 达 叶 节点 ， 到 达 叶 节 
点 后 的 实例 分 类 的 决策 ， 必 须 由 渗透 到 时 节点 的 权 值 重新 组 合 后 产生 。 第 6.1 节 将 介绍 这 部 分 
内 容 。 

对 -- 个 数据 集 进行 手工 建树 是 具有 启发 性 的 ， 甚 至 是 很 有 趣 的 。 为 了 有 效 地 建树 ， 需 要 
有 一 种 观察 数据 的 好 方法 ， 因 为 通过 观察 可 以 判断 出 哪个 属性 有 可 能 成 为 用 于 测试 的 最 佳 属 
性 ， 以 及 应 该 采用 哪 种 适当 的 测试 方法 。 在 第 二 部 分 介绍 的 Weka 探 索 者 里 有 一 个 用 户 分 类 器 
(User Classifier)， 用 户 可 以 使 用 这 个 工具 以 交互 的 方式 创建 一 个 决策 树 。 它 根据 用 户 选 择 的 
两 个 属性 绘 出 一 个 数据 散布 图 。 当 找到 一 对 能 够 很 好 地 区 别 实例 类 别 的 属性 时 ， 用 户 可 以 在 
散布 图 上 围绕 适合 的 数据 点 画 出 一 个 多 边 形 将 数据 一 分 为 二 。 

例如 ， 图 3-1a 是 用 户 正在 一 个 有 3 个 类 的 数据 集 (SERERE) 上 操作 ， 并 且 已 经 找 出 
两 个 属性 : 花瓣 长 度 属 性 和 花瓣 宽度 属性 ， 这 两 个 属性 能 够 很 好 地 将 数据 按 类 进行 分 离 。 手 
工 画 出 的 一 个 长 方形 分 离 出 其 中 的 一 个 类 (LIE versicolor)。 然 后 ， 用 户 可 以 切换 到 决策 [63] 
树 视 图 (图 3-1b) 来 观察 。 左 边 的 叶 节点 主要 包含 了 一 种 类 型 的 蔓 尾 花 ( 刻 尾 花 versicolor， 
仅 有 两 个 virginica 被 错 分 在 这 里 ) ; 右边 的 叶 节 点 主要 包括 另外 两 种 类 型 的 恋 尾 花 (RIE 
setosa 和 virginica， 有 两 个 芒 尾 花 versicolor 被 错 分 在 这 里 )。 用 户 也 许 选择 右边 的 叶子 进一步 
分 析 ， 用 另 一 个 和 矩形， 或 者 基于 一 个 不 同 的 属性 对 ， 再 继续 将 数据 分 裂 (尽管 图 3-1a 所 示 的 
两 个 属性 看 上 去 是 很 好 的 选择 ) 。 

第 10.2 节 介绍 了 如 何 使 用 Weka 用 户 分 类 器 。 大 多 数 人 兴致 勃勃 地 用 这 个 工具 做 出 前 几 个 
决策 以 后 ， 很 快 就 失去 了 兴趣 ， 一 个 非常 有 用 的 方法 是 选用 一 个 机 器 学 习 法 ， 让 机 器 学 习 兴 
在 决策 树 的 节点 上 做 数据 分 离 的 工作 。 从 手工 创建 决策 树 的 过 程 中 能 够 体验 到 ， 对 不 同属 性 
组 合 分 裂 (数据 ) 的 评估 是 一 项 十 分 乏味 辛苦 的 工作 。 
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CAE AEE 
宽 上 进行 分 列 


True 





b) 得 到 (未 完成 的 ) 决策 树 
图 3-1 用 交互 的 方式 创建 一 个 决策 树 


3.3 分 类 规则 


分 类 规则 (classification rules) 是 取代 决策 树 的 一 种 普遍 使 用 的 方法 ， 前 面 已 经 介绍 了 一 
些 例 子 : RA (8124) EERS (81.20) SEE (第 1.2 节 ) 和 大 豆 (第 12 节 ) 数据 集 。 
一 个 规则 的 前 提 或 者 先决 条 件 是 一 系列 的 测试 ， 就 像 在 决策 树 节 点 上 的 测试 ， 而 结论 则 给 出 适 
合 与 规则 所 覆盖 实例 的 一 个 或 多 个 分 类 ， 或 者 是 给 出 实例 在 所 有 类 上 的 概率 分 布 。 通 常 ， 先 决 
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条 件 是 用 逻辑 与 (AND) 的 方式 组 合 在 一 起 ， 如 果 使 用 一 个 规则 ， 那 么 必须 要 通过 所 有 的 测试 。 
然而 ， 在 一 些 规则 的 表达 公式 中 ， 先 决 条 件 通常 是 一 些 普通 的 逻辑 表达 式 ， 而 不 是 一 些 简单 的 
逻辑 与 的 组 合 。 我 们 通常 认为 逻辑 或 (OR) 能 有 效 地 将 独立 的 规则 组 合 在 一 起 ， 如 果 其 中 的 
任何 一 个 规则 适用 于 这 个 实例 ， 那 么 将 规则 结论 得 到 的 类 (或 概率 分 布 ) 赋予 这 个 实例 。 但 是 ， 
当 几 个 规则 得 出 不 同 的 结论 时 ， 就 会 引出 矛盾 的 问题 。 我 们 将 在 下 面 很 快 涉及 到 这 个 问题 。 

从 一 个 决策 树 上 直接 地 读 出 一 组 规则 是 容易 的 。 每 一 片 叶 子 可 以 产生 出 一 条 规则 。 规 则 的 先 
决 条 件 包含 了 从 根 到 叶子 路 径 上 所 有 节点 的 条 件 ， 规 则 的 结论 是 叶子 上 标注 的 类 。 这 个 过 程 能 产 
生 明确 的 规则 ， 它 们 执行 的 次 序 是 无 关 的 。 但 是 ， 通 常 从 决策 树 上 直接 读 出 的 规则 的 复杂 度 远 远 
超出 所 需 ， 所 以 ， 为 了 去 除 一 些 宛 余 的 测试 ， 常 常 需要 对 从 决策 树 上 得 到 的 规则 进行 修剪。 

因为 决策 树 不 易 表 示 出 隐 含 在 一 个 规则 集 里 的 不 同 规则 间 的 逻辑 或 (disjunction) KA, 
所 以 将 一 个 普通 的 规则 集合 转换 成 一 个 决策 树 并 不 是 十 分 直截了当 的 。 当 规则 拥有 相同 的 结 
构 ， 却 拥有 不 同属 性 时 就 是 反映 这 个 问题 的 一 个 很 好 的 例子 ， 例 如 : 


If a and b then x 
If c and d then x 


有 必要 打破 这 种 对 称 形式 并 且 为 根 节点 选择 一 个 测试 。 例 如 ， 如 果 选 择 o, 那么 第 二 条 规 
则 必须 在 树 上 重复 两 次 ， 如 图 3-2 所 示 。 称 为 重复 子 树 问 题 replicated subtree problem), 





图 3-2 一 个 简单 逻辑 或 关系 的 决策 树 


重复 子 树 问题 是 非常 重要 的 问题 ， 再 来 看 几 个 例子 。 图 3-3 左 边 的 图 显示 了 一 个 异 或 
(exclusive-or) 函数 ， 如 果 x=1 或 y=1， 但 是 不 能 同时 等 于 1， 输 出 就 是 a。 将 它 转变 成 树 时 ， 必 
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须 先 根据 一 个 属性 进行 分 离 ， 产 生 一 个 如 中 间 部 分 所 示 的 结构 。 相 对 而 言 ， 规 则 能 忠实 地 反 
映 出 有 关 属 性 的 真正 的 对 称 问 题 ， 如 右边 所 示 。 


If x=1 and y=0 then class =a 
If x=0 and y=1 then class = a 


If x=0 and y=0 then class = b 





If x=1 and y=1 then class = b 





图 3-3 异 或 问题 


在 这 个 例子 中 的 规则 并 不 比 决策 树 简洁 。 实 际 上 ， 它 们 只 是 用 一 种 明显 的 方式 从 决策 树 
上 读 取 规则 。 但 是 在 其 他 情况 下 ， 规 则 比 决策 树 更 加 紧凑 ， 特 别 是 当 有 可 能 获得 一 个 “ 缺 省 ” 
规则 时 ，( 这 个 “ 缺 省 ”规则 ) 能 覆盖 其 他 规则 未 说 明 的 情形 。 例 如 ， 在 图 3-4 中 找 出 规则 的 
效应 ， 这 个 规则 里 有 四 个 属性 ， 分 别 是 z，y，z 和 w， 每 一 个 属性 的 值 可 以 是 1，2 或 3 ， 右 边 是 
由 规则 得 到 的 树 。 在 树 的 右上 部 分 三 个 灰色 三 角形 中 的 每 一 个 都 应 该 包含 一 个 完整 的 三 层 子 
树 (灰色 部 分 )， 这 是 一 个 比较 极端 的 重复 子 树 问题 ， 也 是 一 个 对 于 简单 概念 的 复杂 描述 。 






If x=1 and y=] then class = a 


If z=1 and w=1 then class = a 






Otherwise class = b 


图 3-4 具有 重复 子 树 的 决策 树 
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规则 受 欢迎 的 一 个 原因 是 每 一 条 规则 似乎 都 表示 一 个 独立 的 知识 “ 金 块 *。 新 的 规则 可 以 
添加 到 一 个 已 有 的 规则 集中 ， 却 不 会 扰乱 已 经 存在 的 规则 ， 而 向 … 个 决策 树 结构 添加 新 的 规 
则 后 ， 则 需要 重新 改造 整个 树 的 结构 。 然 而 ， 这 种 规则 的 独立 性 是 一 种 错觉 ， 因 为 它 忽略 了 
如 何 执行 规则 集 的 问题 。 前 面 已 经 讨论 过 (第 1.2 节 )， 如 果 规 则 意味 着 像 一 个 “决策 列 ” 按 
照 先后 次 序 来 解释 ， 那 么 单独 地 取出 其 中 的 一 部 分 规则 也 许 是 不 正确 的 。 但 是 ， 如 果 解 释 的 
次 序 并 不 重要 ， 那 么 当 不 同 的 规则 在 相同 的 实例 上 产生 不 同 的 结论 时 ， 就 不 清楚 应 该 如 何 进 
行 妥善 处 理 。 当 规则 是 直接 从 决策 树 上 读 出 时 ， 这 种 情况 并 不 会 出 现 ， 因 为 存在 于 规则 结构 
里 的 元 余 ， 将 阻止 任何 在 解释 过 程 中 出 现 的 模糊 情况 。 但 是 ， 当 规则 是 由 其 他 方法 产生 时 ， 
确实 会 产生 模棱两可 的 情况 。 

如 果 “个 规则 集 对 一 个 特定 的 样本 给 出 了 多 个 分 类 ，… 种 解决 方法 是 不 给 出 任何 结论 。 
男 一 种 方法 是 统计 每 一 条 规则 在 训练 数据 上 适用 的 频率 ， 选 择 频 率 最 高 的 一 条 规则 所 对 应 的 
结论 作为 这 个 样本 的 分 类 。 这 些 策 略 会 导致 产生 完全 不 同 的 结论 。 当 规则 不 能 对 一 个 实例 进 
行 分 类 时 ， 就 发 生 了 另 一 个 不 同 的 问题 。 决 策 树 或 者 从 决策 树 上 读 出 的 规则 不 会 出 现 这 个 问 
题 。 然 而 这 种 情况 很 容易 发 生 在 普通 的 规则 集 上 。 一 -种 处 理 方法 是 对 这 种 样本 不 进行 分 类 ， 
Fy -种 方法 是 选择 出 现 频率 最 高 的 类 作为 缺 省 类 。 同 样 ， 这 些 策略 也 有 可 能 产生 完全 不 同 的 
结论 。 单 独 的 规则 是 简单 的 ， 而 规则 的 集合 看 上 去 似乎 也 很 简单 ， 但 是 如 果 给 出 的 规则 集 并 
没有 附 上 额外 的 信息 ， 仍 然 不 清楚 如 何 对 它 进行 解释 。 

“个 特别 简单 明了 的 情况 出 现在 当 规则 产生 布尔 值 的 类 时 (如 yes 和 no)， 而 且 只 采用 那 
些 仅 产生 “个 结果 (如 yes) 的 规则 。 假 设 一 个 特定 的 实例 不 是 类 yes， - 定 是 类 no， 这 是 一 
个 闭合 世界 的 假定 。 这 样 -来 ， 规 则 之 间 就 不 会 产生 任何 冲突 ， 在 规则 解释 的 过 程 中 也 不 会 
出 现 模棱两可 的 情况 ， 任 何 解 释 的 方法 都 将 给 出 相同 的 结果 。 这 种 规则 集 可 以 写成 一 个 逻辑 
表达 式 ， 称 为 析 取 范式 (disjunctive normal form)， 即 表达 为 对 还 辑 与 (AND ) 条 件 进行 逻辑 
或 (OR) 运算 的 形式 。 

正 是 这 个 简单 的 特例 ， 使 得 人 们 产生 设想 : 规则 是 很 容易 处 理 的 。 因 为 这 里 的 每 -一 条规 
则 确实 被 当 作 一 个 新 的 、 独 立 的 信息 块 来 操作 ， 采 用 种 简单 的 办 法 为 逻辑 或 做 贡献 。 不 幸 
的 是 ， 这 种 方法 具 适 用 于 结论 是 布尔 值 的 情况 ， 并 且 要 求 一 个 闭合 世界 的 假设 ， 而 这 商 个 限 
制 条 件 在 实际 情况 中 都 是 不 现实 的 。 在 存在 多 个 类 的 情况 下 ， 由 机 器 学 习 算法 产生 的 规则 必 
然 会 产生 有 序 的 规则 集 ， 这 将 牺 性 模块 化 的 可 能 性 ， 因 为 规则 执行 的 次 序 是 非常 重要 的 。 


3.4 关联 规则 


关联 规则 (association rule) 能 够 预测 任何 属性 ， 不 仅仅 是 类 ， 所 以 关联 规则 也 能 预测 属 
性 的 组 合 ， 除 此 以 外 关联 规则 与 分 类 规则 并 没有 什么 不 同 。 关 联 规则 在 使 用 的 时 候 不 像 分 类 
规则 那样 被 组 合成 个 规则 集 来 使 用 。 不 同 的 关联 规则 揭示 出 数据 集 的 不 同 规律 ， 通 常用 来 
预测 不 同 的 事物 。 

因为 从 一 个 很 小 的 数据 集 上 能 够 产生 出 很 多 不 同 的 关联 规则 ， 所 以 只 局 限于 研究 那些 能 
够 应 用 在 实例 数量 比较 大 ， 并 且 能 在 实例 上 获得 较 高 正确 率 的 关联 规则 。 一 个 关联 规则 的 米 
mi Ht (coverage) 是 关联 规则 能 够 正确 预测 的 实例 数 晤 ， 通 常 称 为 支持 (support)。 正 确 率 
(accuracy) 通常 称 为 置信 度 (confidence )， 是 将 正确 预测 的 实例 数量 表示 为 它 在 关联 规则 应 
用 所 涉及 的 全 部 实例 中 占据 的 比例 。 例 如 ， 对 于 规则 : 
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If temperature = cool then humidity = normal 

覆盖 量 是 那些 温度 属性 是 凉爽 ， 湿 度 属 性 是 normal 的 天 数 (在 表 1-2 的 数据 中 有 4 天 )， 正 
确 率 是 湿度 属性 为 normal 的 天 数 在 温度 为 凉爽 的 天 数 中 所 占 的 比例 (这 个 例子 的 正确 率 是 100% ) 。 
通常 需要 明确 最 小 覆盖 量 和 正确 率 ， 只 寻找 那些 覆盖 量 和 正确 率 至 少 达到 预定 最 小 值 的 关联 
规则 。 例 如 在 大 气 数据 中 ， 有 58 条 覆盖 量 和 正确 率 分 别 至 少 是 2 和 95% 的 规则 。( 将 覆盖 量 转 
换 为 一 个 相对 于 实例 总 数 的 百分比 的 形式 也 许 会 更 为 方便 。) 

可 以 预 油 多 个 结果 的 关联 规则 在 解释 的 时 候 必须 小 心 处 理 。 例 如 ， 表 1-2 所 示 的 天 气 数据 
中 的 一 条 关联 规则 如 下 : 

If windy = false and play = no then outlook = sunny 

and humidity = high 

它 并 不 仅仅 是 以 下 两 个 独立 规则 的 简写 形式 : 

If windy = false and play = no then outlook = sunny 

If windy = false and play = no then humidity = high 


前 条 规则 人 确实 上 暗示 了 下 两 条 规则 能 达到 最 小 覆盖 量 和 正确 率 ， 但 是 除 此 以 外 ， 它 还 瞳 
未 了 更 多 的 信息 。 前 一 条 规则 意味 着 没有 风 、 不 能 玩 与 晴天 、 湿 度 大 的 样本 个 数 ， 至 少 达到 
Cie ib ae. Ft, CAD BOR BIR PAIS RETEA, NEDA A Be i 
比例 ， 至 少 达 到 了 指定 的 最 小 正确 率 。 它 还 隐 含 了 下 面 的 规则 : 


If humidity = high and windy = false and play = no 
then outlook = sunny 


因为 这 条 规则 与 原先 的 规则 有 相同 的 覆盖 量 ， 并 且 它 的 正确 率 . - 定 至 少 和 原先 规则 相同 ， 
这 是 由 于 湿度 大 、 没 有 风 、 不 能 玩 的 天 数 必然 少 于 没有 风 、 不 能 玩 的 天 数 ， 所 以 正确 率 会 提高。 

如 上 所 示 ， PEARCE RR: SAURA D - 些 规则 。 当 有 多 条 规则 相关 
联 时 ， 要 减少 所 产生 的 规则 的 数量 ， 合 理 的 做 法 是 给 用 户 提 供 最 重要 的 -条 规则 。 上 面 的 例 
子 中 、 仅 保留 第 -条 规则 。 


3.5 包含 例外 的 规则 


分 类 规则 的 一 个 自然 扩展 就 是 允许 规则 包含 例外 。 它 是 在 现 有 的 规则 上 使 用 例外 表达 法 
来 递增 地 修改 “个 规则 集 ， 而 不 需要 重新 建立 整个 规则 集 。 例 如 ， 前 面 讨论 过 的 划 尾 花 问 题 ， 
假如 表 3-1 给 出 了 “个 新 找到 的 花 的 数据 ， 专家 判断 这 个 新 的 伦 是 一 个 勤 尾 化 setosa 的 实例 。 
如 果 用 第 1.2 节 给 出 的 规则 对 花 进 行 分 类 ， 那 么 下 面 两 条 规则 将 会 得 出 错误 结论 

If petal length > 2.45 and petal length < 4.45 then Iris versicolor 


If petal length > 2.45 and petal length < 4.95 and 
petal width < 1.55 then Iris versicolor 


FA BY A LSU ET Bk. RE A LETT IE OK. Ri, EE BY a hit ek ET 
则 中 的 属性 值 的 测试 边界 、 并 不 能 解决 问题 ， 因 为 用 来 建立 规则 集 的 实例 也 会 被 错 分 。 对 规 
则 集 的 修改 并 不 像 听 上 去 那么 简单 。 
表 3-1 -ROERE 
REK i Ricm) IEW ccm) AEE Rom) 种 类 








Sul 3.5 2.6 0.2 ? 


ooo a 
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首先 专家 需要 给 出 解释 ， 为 什么 新 的 花 会 和 规则 相抵 触 ， 根 据 得 到 的 解释 仅 对 相关 的 规 
则 进行 扩展 ， 而 不 是 修改 现存 规则 中 的 测试 。 例 如 ， 上 面 两 条 规则 中 的 第 -条 错 将 新 的 蔓 尾 
花 setosa 分 到 刻 尾 花 versicolor 类 里 。 可 以 利 几 其 他 一 些 属性 建立 一 个 例外 ， 来 取代 修改 规则 
中 不 等 式 里 的 边界 值 。 


If petal length > 2.45 and petal length < 4.45 then 
Iris versicolor EXCEPT if petal width < 1.0 then Iris setosa 


XTARA REK BEE 2.45~4.45em Ziel, i PTE RAE Be fEversicolor, (HAT 
fh, AUREL TE EA ENF L.Ocm, AB ERA IZ fEsetosa. 

当然 ， 可 以 在 例外 上 使 用 例外 ， 等 等 ， 将 -- 个 决策 树 的 特征 赋予 规则 集 。 除 了 可 以 用 来 
对 现存 的 规则 集 作 递增 的 修改 外 ， 这 些 包含 了 例外 的 规则 能 够 表达 所 有 的 概念 描述 。 

终 3-5 所 示 的 一 组 规则 能 够 对 谈 尾 花 数 据 集中 的 所 有 样本 正确 地 分 类 (第 1.2 节 )。 这 些 规 
则 一 开始 很 难 被 理解 ， 下面 将 一 步 一 步 地 给 予 解 释 。 首 先 选择 -个 缺 省 的 输出 类 侯 尾 花 setosa， 
并 显示 在 第 -… 行 。 对 这 个 数据 集 来 说 ， 缺 省 类 的 选择 是 任意 的 ， 因 为 每 一 种 类 型 都 有 50 个 样 
本 。 通常 是 选择 出 现 频 率 最 高 的 类 作为 缺 省 类 。 





Default: Iris-setosa 
except if petal-length 2 2.45 and petai-length < 5.355 
and petal-width < 1.75 
then Iris-versicolor 
except if petal-length > 4.95 and petal-width < 1.55 
then Iris-virginica 
else if sepal-length < 4.95 and sepal-width 2 2.45 


OANA eB WN Pp 


then Iris-virginica 

else if petal-length > 3.35 9 
then Iris-virginica 10 
except if petal-length < 4.85 and sepal-length < 5.95 11 


then Iris-versicolor 12 





图 3-5 SEEREN 


接 下 来 的 规则 是 在 缺 省 的 规则 上 给 出 例外 。 从 第 2 行 到 第 4 行 的 第 - -个 if...then 给 出 了 -个 
产生 营 尾 化 versicolor 分 类 的 条 件 。 然 而 这 个 规则 存在 2 个 例外 (从 第 5 行 到 第 8 行 )， 我 们 稍 后 
处 理 。 如 打 不 符合 第 2 行 和 第 3 行 的 条 件 ， 将 转 到 第 9 行 else, 它 表示 了 最 初 缺 省 类 的 第 2 种 例外 。 
如 打 符 合 第 9 行 的 条 件 ， 就 属于 类 萝 尾 花 virginica (第 10 行 )。 从 第 11 行 到 第 12 行 是 这 - -规则 的 
男 一 个 例外 。 

现在 过 论 第 5 行 到 第 8 行 的 例外 情况 。 如 果 满 足 第 $ 行 或 者 第 7 行 中 的 任何 一 个 测试 条 件 ， 
堵 么 瘟 居 花 versicolor 的 结论 将 被 废除 。 这 两 个 例外 将 得 出 相同 的 结论 : «OB Se FE virginica (第 6 
行 和 第 8 行 )。 第 11 行 和 第 12 行 是 最 后 :个 例外 ， 当 满足 第 11 行 的 条 件 时 ， 它 废除 了 在 第 10 行 
得 到 的 划 尾 化 virginica 结 论 ， 最 后 产 牛 的 分 类 是 划 尾 花 versicolor。 

在 弄 清 楚 这 些 规则 如 何 阅 读 以 前 ， 需 要 人 花 些 时 间 仔细 思考 这 些 规 则 。 尽 管 需要 花 . -点 时 
间 . 但 在 熟悉 之 后 ， 解 决 except 和 计 ..then.…else 问 题 是 轻而易举 的 。 人 们 习惯 于 用 规则 、 例 外 ， 
和 例外 的 例外 来 思考 真实 的 问题 ， 所 以 这 也 是 表达 一 个 复杂 规则 集 的 好 方法 。 但 是 这 种 表达 
方法 的 最 主要 的 优点 是 整个 规则 集 的 增长 幅度 适中 。 尽 管 对 整个 规则 集 的 理解 有 点 困难 ， 但 
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是 每 一 个 单独 的 结论 ， 每 一 个 单独 的 then 语 句 ， 只 需要 在 那些 导致 它 的 规则 和 例外 的 范围 里 
考虑 。 至 于 决策 列 ， 则 需要 重新 审视 前 面 所 有 的 规则 ， 来 判断 一 个 单独 规则 的 确切 影响 。 当 
开始 理解 大 的 规则 集 时 ， 这 种 局 域 的 特性 是 重要 的 。 从 心理 上 看 ， 人 们 习惯 把 一 个 特定 事件 
集 或 一 种 事件 看 成 数据 ， 当 观察 任何 一 个 在 例外 结构 里 的 结论 时 ， 以 及 当 其 中 的 一 个 事件 转 
变 成 结论 的 一 个 例外 时 ， 增 加 一 个 except 语 句 是 解决 问题 的 一 个 简单 方法 。 

这 里 需要 指出 default...except if... then... 结 构 ， 逻 辑 上 与 许 ..then...else... 相 等 ，else 是 无 条 
件 的 ， 并 且 精 确 地 指出 缺 省 值 是 什么 。 当 然 一 个 无 条 件 的 else 就 是 一 个 缺 省 值 。( 注 意 : 上 面 
的 规则 中 没有 无 条 件 的 else )。 从 逻辑 上 说 ， 基 于 例外 的 规则 可 以 简单 地 用 if...then...else 语 句 
改写 。 采 用 例外 形式 来 陈述 ， 所 获 的 益处 更 趋向 于 心理 上 的 而 不 是 逻辑 上 的 。 这 里 假设 缺 省 
值 和 较 早出 现 的 测试 的 应 用 范围 ， 相 对 于 以 后 的 例外 情况 的 应 用 范围 更 为 广泛 。 如 果真 实情 
况 确 实 如 此 ， 用 户 能 够 看 到 这 是 一 个 似乎 可 行 的 方法 ， 用 (普遍 的 ) 规则 和 ( 极 少 的 ) 例外 
情况 的 表达 方式 比 一 个 不 同 的 、 但 是 逻辑 相同 的 结构 ， 更 容易 被 领会 。 


3.6 包含 关系 的 规则 


前 面 已 经 隐 含 地 假设 了 规则 中 的 条 件 涉及 一 个 属性 值 和 一 个 常量 的 测试 。 这 类 规则 称 为 
命题 ， 因 为 使 用 属性 - 值 语 言 定 义 的 规则 和 逻辑 学 家 所 用 的 命题 演算 有 相同 的 功能 。 在 许多 分 
类 工作 中 ， 命 题 规则 能 够 充分 表达 精练 、 正 确 的 概念 描述 。 例 如 前 面 所 提 到 的 天 气 、 隐 形 眼 
镜 的 推荐 、 齐 尾 花 的 类 型 以 及 劳工 合同 的 接受 程度 的 数据 集 ， 都 能 够 用 命题 规则 很 好 地 表示 。 
但 是 ， 在 一 些 情况 下 一 个 更 有 表现 力 的 规则 形式 将 提供 一 个 更 加 直观 、 简 练 的 概念 描述 ， 这 
些 情况 包括 了 样本 之 间 的 关系 ， 正 如 第 2.2 节 遇见 过 的 。 

举 一 个 具有 代表 性 的 例子 ， 假 设 图 3-6 显 示 了 一 组 8 个 不 同形 状 和 尺寸 的 积木 ， 希 望 学 到 
站 立 的 概念 。 这 是 一 个 经 典 的 二 类 问题 ， 这 两 个 类 分 别 是 站 立 (standing) 类 和 卧 倒 (lying) 类 。 
其 中 4 个 有 阴影 的 积木 是 肯定 的 概念 样本 一 一 站 立 类 ， 没 有 阴影 的 积木 是 否定 的 概念 样本 一 
卧 倒 类 。 学 习 算法 的 输入 信息 是 积木 的 宽度 、 高 度 和 每 个 积木 的 边 数 。 表 3-2 显 示 了 训练 数 
据 集 。 

有 阴影 :站 立 
EAK: EMA 





图 3-6 形状 问题 
从 这 个 数据 中 可 能 产生 的 命题 规则 集 是 : 
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if width 2 3.5 and height < 7.0 then lying 
if height 2 3.5 then standing 


表 3-2 形状 问题 的 训练 数据 








宽 E OE w k 分 类 
2 4 4 站 立 
3 6 4 站 应 
4 3 4 feb ff 
7 8 3 站 应 
7 6 3 Ha 
2 9 4 SE. 
9 1 4 ha 
10 2 3 Eb 





为 什么 宽度 的 分 界 点 是 3.5? 因为 它 是 卧 倒 积木 的 最 小 宽度 4， 和 高 度 小 于 7 的 站 立 积木 的 
最 大 宽度 3 的 平均 值 。 同 样 7.0 是 高 度 的 分 界 点 ， 因 为 它 是 卧 倒 积木 最 大 高 度 6， 和 宽度 大 于 3.5 
的 站 立 积木 的 最 小 高 度 8 的 平均 值 。 将 数值 型 的 益 值 设 定 为 概念 边界 值 的 中 间 值 是 一 个 通用 的 
方法 。 

尽管 这 两 条 规则 能 够 在 给 出 的 样本 上 很 好 地 运用 ， 但 是 它们 不 是 最 好 的 方案 。 因 为 它们 
不 能 对 许多 新 的 积木 进行 分 类 (例如 : 积木 的 宽度 是 1， 高 度 是 2) ， 还 可 以 很 容易 地 找 出 许多 
合理 的 而 这 两 条 规则 却 不 适用 的 积木 。 

当 人 们 在 对 这 8 个 积木 进行 分 类 有 时， 也 许 会 发 现 “ 站 立 积木 的 高 度 大 于 宽度 ”"。 这 条 规则 
是 在 属性 值 之 间 进 行 比较 ， 而 不 是 将 属性 值 与 一 个 常量 进行 比较 。 


if width > height then lying 
if height > width then standing 


高 度 和 宽度 的 真实 值 并 不 重要 ， 重 要 的 是 它们 之 间 的 比较 结果 。 这 种 形式 的 规则 称 为 关 
系 规则 ， 因 为 它 表示 了 属性 之 间 的 关系 ， 而 不 是 只 针对 -个 属性 实际 情况 的 命题 规则 。 

标准 的 关系 包括 名 词性 属性 的 等 于 或 不 等 于 运算 ， 和 数值 属性 的 小 于 和 大 于 的 运算 。 尽 
管 决 策 树 里 可 以 使 用 关系 节点 ， 就 像 能 够 在 规则 里 使 用 关系 条 件 一 样 ， 但 是 采用 关系 的 方案 
里 通常 使 用 规则 而 不 是 树 的 表达 形式 。 然 而 ， 大 多 数 机 器 学 习 方案 并 不 考虑 关系 规则 ， 因 为 
建立 关系 规则 的 代价 太 高 。 但 是 可 以 使 用 命题 规则 的 方法 来 使 用 关系 ， 就 是 新 增 一 个 属性 即 
第 一 属性 ， 来 表示 两 个 原始 属性 之 间 相 等 或 不 等 的 关系 ， 如 果 是 数值 属性 可 以 给 出 它们 之 间 
的 差 值 。 例 如 ， 可 以 在 表 3-2 中 增加 -个 是 否 宽度 小 于 高 度 (width<height) 的 一 个 二 元 值 属 
性 。 这 些 属 性 通常 作为 数据 处 理工 作 的 一 部 分 被 加 入 。 

经 过 看 似 较 小 的 改进 后 ， 关 系 的 知识 表达 能 力 能 够 得 到 极 大 的 扩展 。 其 中 的 奥秘 是 采用 
能 使 实例 作用 明确 的 方法 来 表示 规则 。 


if width(block) > height (block) then lying (block) 
if height (block) > width(block) then standing (block) 


尽管 这 个 例子 似乎 并 没有 得 到 很 多 扩展 ， 但 是 如 果 能 够 把 实例 分 解 成 多 个 部 分 ， 规 则 的 
表现 能 力 确实 能 够 得 到 扩展 。 例 如 ， 如 果 一 个 由 一 堆 石 块 堆 出 的 塔 ， 一 块 堆 在 另 一 块 上 面 ， 
那么 位 于 塔 最 顶端 的 石 块 是 站 立 的 ， 就 可 以 用 以 下 的 规则 表示 : 


if height (tower.top) > width (tower.top) then standing (tower. top) 
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这 里 tower. top 是 指 最 顶端 的 那 块 石 块 。 到 现在 为 止 并 没有 获得 任何 益处 。 但 是 如 
果 用 tower. rest 表 示 塔 的 其 余部 分 ， 那 么 可 以 用 下 面 的 规则 表示 塔 是 由 爹 部 站 立 的 石 块 
组 成 。 


if height (tower .top) > width(tower.top) and standing(tower.rest) 
then standing (tower) 


看 似 很 小 的 附加 条 件 standing(tower. rest) 却 是 一 个 递归 的 表达 形式 ， 只 有 当 塔 的 余 
下 部 分 全 部 由 站 立 的 石 块 组 成 ， 附 加 条 件 standing(tower.rest) 才 能 被 满足 。 相 同 规则 的 递 
归 应 用 将 对 此 进行 测试 。 当 然 ， 有 必要 增加 一 个 如 下 的 规则 为 递归 设置 一 个 适合 的 “最 
低 点 ”。 
if tower = empty then standing (tower. top) 
使 用 这 个 附加 条 件 ， 关 系 规则 就 能 够 表示 那些 不 可 能 由 命题 形式 表达 的 概念 ， 因 为 递归 能 
够 应 用 于 任意 长 的 对 象 列 上 。 像 这 样 的 规则 集 称 为 逻辑 程序 (logic programs )， 在 机 器 学 
习 领域 里 称 为 归纳 逻辑 编程 (inductive logic programming)。 这 本 书 将 不 深入 涉及 这 一 
AF. 


3.7 数值 预测 树 


到 现在 为 止 所 讨论 的 决策 树 和 规则 是 设计 用 来 预测 实例 的 类 而 不 是 数量 值 。 对 像 表 1-5 
的 CPU 性 能 数据 进行 数量 值 的 预测 时 ， 可 以 使 用 相同 的 决策 树 或 者 规则 的 表达 形式 ， 但 是 决 
策 树 的 叶 节 点 或 者 是 规则 的 右边 将 包含 一 个 数量 值 ， 这 个 数量 值 是 叶 节 点 或 规则 应 用 所 涉及 
的 全 部 训练 集 (类 ) 值 的 平均 值 。 统 计 学 家 使 用 回归 (regression) 这 个 术语 表示 计算 一 个 
能 预测 数值 量 的 表达 式 的 过 程 ， 因此 在 叶 节 点 拥有 平均 数值 的 决策 树 称 为 回归 树 
(regression tree), 

图 3-7a 是 一 个 CPU 性 能 数据 的 回归 公式 ， 图 3-7b 是 -个 回归 树 。 在 回归 树 的 叶子 上 的 数 
字 是 到 达 这 个 叶子 的 所 有 实例 的 平均 类 值 。 这 个 树 比 回归 公式 更 大 也 更 复杂 ， 如 果 计 算 
CPU 性 能 预测 值 和 实际 测量 值 之 间 的 平均 绝对 误差 值 时 ， 将 会 发 现 由 回归 树 预测 得 出 的 平 
均 误差 明显 小 于 由 回归 公式 计算 的 。 回 归 树 能 做 出 更 加 精确 的 预测 ， 是 因为 在 这 个 问题 上 ， 
-个 简单 线性 模型 的 数据 表达 能 力 较 差 。 然 而 ， 回 归 树 的 规模 较 大 、 很 繁琐 ， 也 很 难 对 它 
进行 解释 。 

将 回归 公式 和 回归 树 相 结合 是 一 个 可 行 的 方案 。 图 3-7c 是 一 个 在 叶 节 点 包含 了 线性 公式 ， 
亦 即 回归 公式 ， 而 不 是 一 个 预测 值 ， 这 个 树 ( 稍 有 些 困 惑 ) 称 为 模型 树 (model tree )。 图 3-7c 
包含 的 6 个 线性 模型 分 别 属于 6 个 叶子 ， 用 LM1~LM6 进 行 标记 。 模 型 树 用 多 个 线性 “修补 ” 
(函数 ) 来 逼近 连续 函数 ， 这 是 -- 种 比 线性 辐 归 或 者 回归 树 更 好 的 表达 形式 。 尽管 模型 树 比 回 
归 树 更 小 更 容易 理解 ， 在 训练 数据 上 产生 的 平均 误差 值 却 要 低 ，( 然而， 在 第 5$ 章 将 看 到 在 训 
练 集 上 计算 平均 误差 并 不 是 一 个 评估 模型 性 能 的 好 方法 。) 


3.8 基于 实例 的 表达 


最 简单 的 学 习 形 式 是 简单 地 记 住 或 者 是 死记 硬 背 。 一 旦 记 住 了 一 个 训练 实例 集 ， 在 遇 到 
-个 新 的 实例 时 ， 就 会 在 记忆 中 找 出 与 之 最 相似 的 一 个 训练 实例 。 唯 一 的 问题 是 如 何 理解 
“相似 " ， 我 们 将 很 快 对 此 进行 解释 。 首 先 ， 注 意 这 是 采用 一 种 完全 不 同 的 方法 来 表达 从 实例 





PIE fh: RAA Sl 





$7.5 >75 
s85 |(8.s,28] \2 28 < 28000 \\ > 28000 


国力 国治 Geen 


s58 \>58 








2500 rey > 4250 < 10000 


E Co GE] aa =) 


$12000 |> 12000 


> 10000 


<05 (0.5,8.5] 
A 
Corer) diane 
<550 \>550 
k ad fins A 
(11.3%)| | (7/3.83%) | 


a) 线性 回归 b) 回归 树 












LM1 PRP=8.29+0.004 MMAX+2.77 CHMIN 
LM2 PRP=20.3+0.004 MMIN-3.99 CHMIN 
+0.946 CHMAX 
LM3 PRP=38.1+0.012 MMIN 
LM4 PRP=19.5+0.002 MMAX+0.698 CACH 
+0.969 CHMAX 
LMS PRP=285-1.46 MYCT+1.02 CACH 


-9.39 CHMIN 
LM6 PRP=-65.8+0.03 MMIN-2.94 CHMIN 
+4.98 CHMAX 
c) 模型 树 
图 3-7 CPU 性 能 数据 模型 


集 里 提取 出 的 “知识 ": 保存 实例 本 身 ， 并 且 将 类 未 知 的 新 实例 与 现 有 的 类 已 知 的 实例 联系 起 
来 进行 操作 。 这 种 方法 直接 在 样本 上 工作 ， 而 不 是 建立 规则 。 这 就 是 基于 实例 的 学 习 
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(instance-based learning )。 从 某 种 意义 上 看 所 有 其 他 的 机 器 学 习 方 法 都 是 “基于 实例 ”的 ， 
因为 我 们 总 是 从 -个 作为 初始 训练 信息 的 实例 集 开 始 。 但 是 基于 实例 的 知识 表达 是 使 用 实例 
本 身 来 表达 所 学 到 的 (知识 )， 而 不 是 推断 出 一 个 规则 集 或 决策 树 ， 并 保存 它 。 

在 基于 实例 的 学 习 中 ， 对 一 个 新 的 实例 进行 分 类 时 ， 进 行 实质 性 的 工作 ， 而 不 是 在 处 理 
训练 集 时 。 从 这 -点 上 看 ， 基 于 实例 的 学 习 方 法 和 其 他 已 介绍 的 学 习 方 法 的 不 同 之 处 是 “学 
习 ” 发 后 的 时 间 不 同 。 基 于 实例 的 学 习 是 懒散 的 ， 尽 可 能 延缓 实质 性 的 工作 ， 而 其 他 学 习 方 
法 是 急切 的 ， 只 要 发 现 数据 就 产生 一 个 归纳 ， 在 基于 实例 的 学 习 中 ， 使 用 :种 距离 黎 “将 每 
个 新 实例 与 现 有 的 实例 进行 比较 ， 利 用 最 接近 的 现存 实例 赋予 新 实例 类 别 。 称 为 役 近邻 
(nearest-neighbor) 分 类 方法 。 有 时 使 用 不 止 一 个 最 近邻 实例 ， 并 且 用 最 到 的 K 个 邻 : “ 属 的 
BRE (如 果 类 是 数值 型 ， 就 是 经 距离 -加 权 的 平均 值 ) REPARA. oik IA 
(k-nearest-neighbor ) 。 

当 样 本 仅 有 一 个 数值 属性 时 ， 计 算 两 个 样本 之 间 的 距离 没有 多 大 意义 ， 它 仅仅 是 两 个 属 
性 值 之 差 。 当 存在 多 个 数值 属性 时 ， 几 乎 是 直接 使 用 标准 欧 几 里 得 距离 。 然 贞 ， 这 里 假设 所 
有 属性 值 已 经 被 正常 化 ， 且 同样 重要 ， 机 器 学 习 中 的 一 个 重要 问题 是 判断 哪些 属性 是 重要 的 
属性 。 

当 表 示 名 词性 属性 时 ， 有 必要 对 名 词性 属性 的 不 同 值 之 间 产 生 一 个 “距离 ”。 如 果 属 性 值 
是 红 ， 绿 和 蓝 ， 它 们 之 间 的 距离 是 什么 ”通常 ， 如 果 属 性 值 相同 ， 那 么 它们 之 间 的 距离 是 0， 
否则 距离 是 !。 所 以 红 和 红 之 间 的 距离 是 0， 红 和 绿 之 间 的 距离 是 1。 但 是 ， 也 许 比较 合理 的 处 
理 方 法 是 采用 一 个 更 复杂 的 属性 表达 。 例 如 ， 当 有 多 种 颜色 时 ， 可 以 在 颜色 区 间 使 用 一 个 色 
调 的 数值 测量 ， 与 绿色 相 比 ， 黄 色 更 接近 村 黄色 和 土 黄色 。 

一 些 属性 也 许 比 男 -一 些 属性 更 加 重要 ， 这 通常 通过 某 种 属性 加 权 反 映 在 距离 度量 上 。 从 
训练 集 上 获得 合适 的 属性 权 值 ， 是 基于 实例 学 习 中 的 一 个 关键 问题 。 

也 许 没 有 必要 存储 所 有 的 训练 实例 。 -方面 是 因为 它 可 能 使 最 近邻 的 计算 过 程 异常 缓慢 ， 
男 一 方面 它 将 不 切实 际 地 占用 大 量 的 存储 空间 。 通 常 与 类 相对 应 的 属性 空间 的 部 分 区 域 比 其 
他 区 域 更 稳定 ， 所 以 在 这 些 稳定 的 区 域内 只 需要 少数 几 个 样本 。 例 如 ， 你 也 许可 以 期 望 类 边 
界 以 内 所 需 的 样本 密度 此 小 十 靠近 类 边界 所 需 的 密度 。 决 定 应 该 保留 哪些 实例 ， 哪 些 实例 应 
该 抛弃 是 基于 实例 学 习 的 另 一 个 关键 问题 。 

基于 事例 学 习 表 达 方 式 的 弱点 是 ， 它 不 能 对 所 学 到 的 给 出 一 个 清晰 的 数据 结构 。 从 这 方 
面 说 它 和 在 这 本 书 … 开 始 所 陈述 的 “学 习 ” 相 冲突 ， 实 例 并 没有 真正 "描述 "数据 中 的 模式 。 
然而 ， 实 例 结合 距离 度量 在 实例 空间 刻 划 出 的 边界 能 够 区 别 不 同 的 类 别 ， 这 是 一 种 显 式 的 知 
识 表达 形式 。 例 如 ， 给 出 两 个 属于 不 同类 的 实例 ， 最 近邻 规则 能 有 效 地 利用 实例 之 间 连 线 的 
冬 直 平分 线 将 实例 空间 分 裂 开 来 。 如 果 每 个 类 都 有 几 个 实例 ， 那 么 实例 空间 将 被 一 组 直线 分 
隔 开 来 ， 这 组 直线 便 是 经 过 挑选 的 、 属 于 一 个 类 别 的 实例 与 另 -一 个 类 别 实 例 之 间 连 线 的 垂直 
平分 线 。 图 3-8a 里 用 一 个 9 边 形 将 属于 实心 圆 的 类 从 属于 空心 圆 的 类 里 分 离 出 来 。 这 个 多 边 形 
隐 含 着 最 近邻 规则 的 操作 。 

当 训 练 实例 被 丢弃 后 ， 结 果 是 每 个 类 只 保存 几 个 有 代表 性 的 样本 。 图 3-8b 用 深 色 空心 圆 
圈 显 示 的 仅 是 儿 个 真正 在 最 近邻 决策 中 使 用 到 的 样本 ， 其 他 的 样本 ( 淡 灰 色 的 空心 圆圈 ) 可 
以 被 丢弃 而 不 对 结果 产生 任何 影响 。 这些 有 代表 性 的 样本 就 是 一 种 显 式 的 知识 表达 形式 。 
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形 区 域 来 包围 属于 同一 类 的 实例 。 图 3-8c 展 示 了 可 能 产生 的 矩形 区 域 。 如 果 一 个 未 知 类 的 实 
例 落 入 某 一 年 形 区 域 之 内 ， 它 将 被 赋予 相应 的 类 ， 而 落 在 所 有 矩形 区 域 以 外 的 样本 将 服从 最 
近邻 规则 。 当然 这 将 产生 与 直接 的 最 近邻 规则 不 同 的 决策 边界 ， 若 将 图 3-8a 的 多 边 形 与 矩形 
重合 后 就 会 发 现 (此 不 同 )。 落 入 甜 形 的 多 边 形 部 分 将 被 砍 掉 ， 而 由 和 矩形 边界 取而代之 。 


[o] o d O 〇 
o o o 2 o o 
o o fo} o o o 
o o o 
oo) o ° (02) o 
o 0 
o 
o o % © c o oo 2 
o o a o 
o ° o œ 





) b) c) d) 
图 3-8 分 隔 实例 空间 的 不 同方 法 

在 实例 空间 的 矩形 推广 法 就 像 是 包含 特殊 条 件 形式 的 规则 ， 它 对 一 个 数值 变量 进行 上 、 
下 边界 的 测试 ， 并 选择 位 于 其 间 的 区 域 。 不 同 尺寸 的 矩形 对 应 于 由 逻辑 与 组 合 在 一 起 的 在 不 
同属 性 上 的 测试 。 选 择 一 个 最 适合 的 矩形 作为 测试 边界 所 产生 的 规则 ， 将 比 由 基于 规则 的 机 
党 学 习 万 案 产生 的 规则 更 为 保守 ， 因 为 对 于 区 域 的 每 一 个 边界 ， 都 有 一 个 真正 的 实例 落 在 边 
界 上 《或 边界 内 )。 而 像 x < a (x 是 一 个 属性 值 ，a 是 一 个 常量 ) 的 测试 将 包围 一 半 的 空间 ， 不 
管 x 有 多 小 只 要 它 小 于 a。 当 在 实例 空间 运用 箔 形 推 广 时 ， 能 够 做 到 保守 ， 因 为 如 果 一 个 新 的 
样本 落 在 所 有 区 域 以 外 ， 还 可 以 求助 于 最 近邻 的 度量 方法 。 而 采用 基于 规则 的 方法 时 ， 如 果 
没有 规则 适用 于 这 个 样本 ， 它 将 不 能 被 分 类 ， 或 是 仅 得 到 一 个 缺 省 的 分 类 。 更 加 保守 的 规则 
的 优点 是 尽管 保守 的 规则 并 不 完整 ， 但 是 它 也 许 比 一 个 覆盖 所 有 事件 的 规则 集 的 表达 更 为 清 
楚 。 最 后 ， 要 保证 区 域 之 间 不 能 重合 ， 也 就 是 保证 最 多 只 能 有 一 个 规则 适合 应 用 于 一 个 样本 ， 
这 样 避免 了 在 其 他 基于 规则 学 习 系统 中 ， 多 个 规则 适用 于 一 个 样本 的 难题 。 

一 个 更 复杂 的 推广 是 允许 矩形 区 域 嵌 入 在 其 他 矩形 区 域 中 。 正 如 图 3-8d 所 示 ， 基 本 上 属 
于 一 个 类 的 样本 区 域 里 包含 了 属于 为 一 个 不 同类 的 内 部 区 域 。 还 可 以 允许 嵌 套 内 的 候 套 ， 那 
么 内 部 区 域 本 身 便 可 以 包含 一 个 不 同类 的 内 部 区 域 ， 这 个 类 也 可 能 与 最 外 面 的 区 域 属于 同一 
个 类 。 这 种 处 理 方 法 与 第 3.5 节 允许 规则 中 有 例外 ， 以 及 例外 的 例外 相 类 似 。 

这 里 需要 指出 在 样本 空间 里 ， 用 边界 的 方法 将 基于 实例 学 习 可 视 化 的 技术 有 一 点 缺陷 : 
它 做 了 一 个 隐 含 的 假设 ,假设 属性 是 数值 型 的 而 不 是 名 词性 的 。 如 果 一 个 名 词性 属性 的 不 同 
属性 值 被 放置 在 一 条 直线 上 ， 那 么 在 这 条 直线 进行 分 段 的 推广 是 没有 意义 的 ， 每 个 测试 包含 
了 一 个 属性 值 或 者 所 有 属性 值 (也 许 是 属性 值 的 任意 一 个 子 集 )。 尽 管 你 能 很 容易 或 不 太 容易 
地 将 图 3-8 的 样本 想像 成 扩展 到 多 维 空间 上 ， 但 是 要 想像 包含 了 名 词性 属性 的 规则 在 多 维 实例 
空间 上 将 是 如 何 的 ， 便 困难 多 了 。 在 许多 场合 里 机 器 学 习 需 要 处 理 大 量 的 属性 ， 当 扩展 到 高 
维 实例 空间 时 ， 直 觉 往往 会 导致 我 们 步 入 歧途 。 [so] 


3.9 RÆ 


当 机 器 学 习 学 到 的 是 聚 类 而 不 是 -个 分 类 器 时 ， 输 出 则 采用 一 个 显示 实例 如 何 落 入 聚 类 
的 图 形 形 式 。 最 简单 的 方法 是 让 每 个 实例 伴随 一 个 聚 类 的 编号 ， 通 过 将 实例 分 布 在 二 维 空间 
并 且 对 空间 加 以 分 隔 的 形式 来 表示 各 个 聚 类 ， 如 图 3-9a 所 示 。 








54 HD MEFILASRK 





一 些 罕 类 的 算法 允许 一 个 实例 可 以 属于 不 止 -一 个 诊 类 ， 如 Venn 图 ， 将 实例 分 布 在 二 维 图 
CL. 然后 画 出 重 缀 的 子 集 来 表示 每 个 京 类 。 另 一 些 算法 将 实例 与 各 个 察 类 的 概率 相关 联 而 
不 是 (直接 ) 与 类 别 相 关联 。 从 这 个 意义 上 说 ， 每 个 实例 存在 一 个 对 于 各 个 聚 类 的 成 员 归 属 
的 可 能 性 或 者 程度 ， 如 图 3-9c 中 所 示 。 这 个 特殊 的 关联 意味 着 一 个 概率 问题 ， 所 以 对 于 每 个 
实例 ， 所 有 概率 和 为 1， 尽 管 并 不 总 是 这 样 。 其 他 算法 产生 一 个 分 级 的 聚 类 结构 ， 在 结构 顶层 
的 实例 空间 被 分 为 几 个 育 类 ， 每 个 聚 类 将 在 下 一 层 又 被 分 为 几 个 子 聚 类 ， 如 此 下 去 。 这 样 就 
产生 如 图 3-9d 所 示 的 结构 ， 豪 类 的 成 员 在 低层 聚集 的 紧密 程度 要 高 于 在 高 层 京 集 的 程度 。 这 
种 图 称 为 系统 树 图 (dendrogram)。 这 个 术语 与 树 图 (tree diagram) 有 着 相同 的 含义 (希腊 语 
dendron 是 “一 棵 树 ")， 但 是 在 聚 类 中 似乎 更 倾向 于 使 用 古色 十 香 的 文言 ， 也 许 是 因为 察 类 技 
术 首 先 运 用 的 领域 是 生物 物种 ， 而 在 生物 学 领域 通常 使 用 古代 语言 对 生物 物种 进行 命名 。 





b 
a) b) 
1 2 3 
a 04 01 05 
b 0.1 08 0.1 
c 03 03 04 
d 01 01 08 
e 04 02 04 
f O01 #04 05 
g 07 02 01 
h 05 04 01 gacıiedkbjfh 
c) d) 


图 3-9 表示 聚 类 的 不 同方 法 


聚 类 之 后 通常 伴随 着 推导 出 一 个 决策 树 或 规则 集 的 步骤 ， 从 而 将 每 个 实例 分 配 到 它 所 属 
的 察 类 。 这 样 说 来 ， 罕 类 操作 只 不 过 是 通 向 结构 描述 的 -个 步骤 。 


3.10 补充 读物 


知识 表达 传统 上 是 人 工 智能 的 -个 重要 主题 ， 并 在 Brachman 和 Levesque (1985 年 ) 的 一 
系列 系统 的 论文 中 已 得 到 了 很 好 的 论述 。 然 而 ， 这 些 论 文 都 是 关 于 如 何 表达 手工 制作 出 而 非 
学 习 得 来 的 知识 、 比 较 而 言 ， 可 以 从 样本 中 学 得 的 知识 的 表达 方式 (的 论述 ) 还 相当 原始 。 
值得 ~… 提 的 是 ， 在 逻辑 上 被 称 为 命题 验算 的 命题 规则 的 缺点 ， 以 及 关系 规则 ， 或 者 称谓 词 验 
算 (predicate calculus) 的 极 大 表现 能 力 ， 在 Genesereth 和 Nilsson (1987) 的 第 2 章 介绍 逐 
辑 部 分 得 到 很 好 的 前 述 。 

我 们 提 到 了 处 理 不 同 规则 之 间 冲 突 的 问题 ， 对 此 有 多 种 处 理 方案 ， 称 为 冲突 解决 策略 
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(conflict resolution strategy)， 已 经 开发 运用 于 基于 规则 的 程序 系统 。 并 在 有 关 基 于 规则 编程 
的 书 中 靖 述 了 有 关内 容 ， 如 Brownstown 等 (1985 年 ) 所 著 。 然 而 ， 它 们 是 为 用 于 手工 制作 的 
而 非 学 习 来 的 规则 集 而 设计 的 。 手 工 制作 的 包含 例外 的 规则 在 一 个 大 型 数据 集 上 的 应 用 ， 已 
经 由 Gaines 和 Compton (1995 年 ) 作 了 研究 ， 并 且 Richards 和 Compton (1998 年 ) 探讨 了 它们 
作为 经 典 的 知识 工程 的 赫 代 的 作用 。 

更 多 的 有 关 概 念 表达 的 不 同方 法 ， 可 以 在 那些 有 关 从 样本 中 推出 概念 的 机 器 学 习 方法 的 
论文 中 找到 。 在 第 4 章 的 补充 读物 和 第 6 章 的 讨论 部 分 将 谈 到 这 部 分 内 容 。 








第 4 章 算法 : 基本 方法 


我 们 已 经 学 习 了 如 何 表达 和 输入 和 输出 ， 现 在 来 看 机 器 学 习 算法 。 本 章 将 介绍 在 实际 数据 
挖掘 中 使 用 的 、 数 据 挖 据 技 术 的 .- 些 基本 概念 。 这 里 将 不 深入 地 考查 … 些 很 微妙 的 问题 ， 比 
如 高 级 的 算法 版 本 、 可 能 的 优化 方法 、 在 实际 数据 挖掘 中 产生 出 的 复杂 问题 。 这 部 分 内 容 会 
在 第 6 章 进行 记述 ， 届 时 将 结合 真正 用 于 机 器 学 习 的 实现 方案 进行 讨论 ， 芯 如 与 本 书 配套 的 数 
据 挖 斤 开 发 .上 具 里 的 一 些 方 案 ， 以 及 在 真实 世界 中 的 应 用 。 深 入 理解 这 些 更 为 复杂 的 问题 是 
非常 重要 的 ， 这 样 才 能 在 分 析 某 个 具体 数据 集 时 ， 了 解数 据 中 真正 发 生 了 什么 。 

本 章 将 研究 - 些 基 本 概念 。 其 中 最 有 指导 意义 的 -一句 话 就 是 简单 的 方法 通常 能 很 好 地 工 
作 。 在 分 析 实 际 数据 集 时 ， 建 议 采 用 “简单 优先 ”的 方法 论 。 数 据 集 能 够 展示 很 多 不 同 的 、 
简单 的 数据 结构 形式 。 在 个 数据 集 里 ， 也 许 只 有 一 个 属性 承担 了 所 有 的 工作 ， 而 其 他 的 都 
是 无 关 或 元 余 的 属性 。 在 另 个 数据 集 里 ， 所 有 属性 也 许 是 独立 地 、 均 等 地 对 最 终结 果 做 出 
贡献 。 在 第 “个 数据 集 里 ， 也 许 拥有 一 个 包含 了 几 个 属性 的 简单 逻辑 结构 ， 这 个 结构 可 以 由 
-个 决策 树 得 到 。 在 第 四 个 数据 集 里 ， 也 许 存 在 一些 独立 的 规则 ， 能 将 实例 划分 到 不 同 的 类 。 
在 第 五 个 数据 集 里 ， 也 许 展示 出 不 同 的 属性 子 集 间 的 依赖 性 。 在 第 六 个 数据 集 里 ， 也 许 包 含 
了 一 些 数 值 属性 间 的 线性 依赖 关系 ， 关 键 是 要 为 各 个 属性 选择 合适 的 权 值 ， 并 求 一 个 加 权 的 
属性 值 之 和 。 在 第 七 个 数据 集 里 ， 归 类 到 实例 空间 的 具体 区 域 也 许 要 受 控 于 实例 间 的 距离 。 
在 第 八 个 数据 集 里 ， 也 许 没有 提供 类 值 ， 学 习 是 无 指导 的 学 习 。 

在 具有 无 穷 变 化 的 数据 集 里 ， 会 产生 很 多 不 同 的 数据 结构 形式 。 要 寻找 某 一 种 结构 的 数 
ism 工具 ， 不 管 多 有 效 ， 都 可 能 会 完全 丢失 其 他 不 同 结构 的 规律 性 ， 而 这 些 结构 是 非常 基 
本 的 。 结 果 得 到 的 是 结构 复杂 的 、 难 以 理解 的 一 种 分 类 结构 ， 而 不 是 简单 的 、 优 美的 、 能 够 
立刻 被 理解 的 另 - -种 结构 形式 。 

上 面 所 描述 的 八 种 不 同 数据 集 形式 中 的 每 一 个 ， 都 对 应 着 一 个 适合 于 揭示 它 的 不 同 的 机 
器 学 习 方 案 。 本 章 将 分 别 对 这 些 结构 进行 讨论 。 


4.1 推断 基本 规则 


这 里 有 -个 能 从 实例 集 里 方便 地 找 出 非常 简单 的 分 类 规则 的 方法 , 称 为 “1 规则 ”(1-rule)， 
简称 1R。 它 产生 一 层 的 决策 树 ， 用 个 规则 集 的 形式 表示 ， 只 在 某 个 特定 的 属性 上 进行 测试 。 
1R 是 一个 简单 、 廉 价 的 方法 ， 但 常常 能 得 到 非常 好 的 规则 用 以 描述 存在 于 数据 中 的 结构 。 由 
它 得 出 的 简单 规则 经 常 能 达到 高 得 令 人 吃惊 的 正确 率 。 也 许 这 是 因为 真实 世界 的 数据 集中 的 
数据 结构 相当 基本 ， 仅 用 一 个 属性 就 足以 准确 地 判断 出 … 个 实例 的 类 别 。 所 以 在 任何 事例 上 ， 
首先 采用 最 简单 的 方法 总 是 “个 好 计划 。 

方法 是 : 建立 “个 只 对 单个 属性 进行 测试 的 规则 ， 并 进行 不 同 的 分 支 。 每 一 个 分 支 对 应 
个 不 同 的 属性 值 。 分 支 的 类 就 是 训练 数据 在 这 个 分 支 上 出 现 最 多 的 类 。 这 种 方法 能 够 容易 
地 计算 出 规则 的 误差 率 。 只 要 计算 在 训练 数据 上 产生 的 错误 ， 即 ， 统 让 不 属于 多 数 类 的 实例 
数量 。 
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每 一 个 属性 都 会 产生 一 个 不 同 的 规则 集 ， 每 条 规则 对 应 这 个 属性 的 每 个 值 。 对 每 一 个 属 
性 的 规则 集 的 误差 率 进行 评估 ， 从 中 选 出 性 能 最 好 的 一 个 。 就 是 这 么 简单 ! 图 4-1 是 用 伪 代 码 
形式 表示 的 算法 。 





对 于 每 个 属性 
对 于 这 个 属性 的 每 个 属性 值 ， 建 立 如 下 的 条 规则 : 
计算 每 个 类 别 出 现 的 频率 
找 出 出 现 鼓 频繁 的 类 别 
fy BLU. HiX A R HE Pix PPE 
计算 规则 的 误差 替 
选择 误差 率 最 小 的 规则 





图 4-1 JR 伪 代码 
表 4-1 评估 天 气 数据 中 的 属性 





属性 规则 i 总 误差 
1 outlook sunny > no 2/5 4/14 
overcast > yes 0/4 
rainy > yes 2/5 
2 temperature hot > no* 2/4 5/14 
mild > yes 2/6 
cool + yes 1/4 
3 humidity high > no 3/7 4/14 
normal > yes 1/7 
4 windy false — yes 2/8 i 5/14 
true ~ no* 3/6 


* 在 出 现 琴 个 相等 结论 时 的 一 个 任意 选择 

这 里 用 表 1-2 的 天 气 数据 来 研究 1R 是 如 何 工 作 的 (在 讨论 学 习 算法 如 何 工作 时 ,. 我 们 将 多 
次 采用 这 个 数据 )。 为 了 在 最 后 一 列 得 到 分 类 结果 是 否 玩 (Play)，1R 将 考虑 四 个 规则 集 ， 一 
个 属性 对 应 个 规则 集 。 表 4-1 列 出 了 这 些 规则 。 星 号 表示 采用 了 一 个 任意 的 选择 ， 因 为 规则 
产生 出 两 个 可 能 性 相等 的 结论 。 给 出 每 个 规则 产生 的 错误 分 类 的 数量 ， 以 及 整个 规则 集 产生 
的 错误 分 类 的 数量 。1R 选 择 所 产生 的 规则 集 的 错误 数量 最 小 的 属性 ， 就 是 第 一 和 第 三 个 规则 
集 。 可 以 从 中 任意 选择 一 个 规则 集 来 打破 这 个 平局 而 给 出 : 


outlook: sunny -> no 
overcast — yes 
rainy — yes 


注意 在 “开始 就 没有 对 天 气 数据 所 涉及 的 活动 做 出 特别 说 明 。 从 得 出 的 结论 看 非常 奇怪 ， 
似乎 在 多 去 或 者 南天 才能 进行 这 项 活动 ， 上 晴天 却 不 适合 。 也 许 这 是 一 项 室内 活动 。 


4.1.1 残缺 值 和 数值 属性 


REIRE “个 非常 基本 的 学 习 方法 .但 是 它 可 适用 于 残缺 值 和 数值 属性 。1R 处 理 残 缺 值 
和 数值 属性 的 方法 既 简单 又 高 效 ， 把 残缺 作为 另 -个 属性 值 ， 例 如 ， 如 果 天 气 数据 在 阴 晴 属 
性 上 存在 残缺 什 ， 那 么 在 阴 晴 属性 十 产 生 的 规则 集 将 指定 4 个 可 能 的 类 值 ， 分 别 为 sunny、 
overcast、rainy， 第 4 个 为 残缺 。 
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我 们 可 以 采用 一 个 简单 的 离散 方法 将 数值 属性 转换 成 名 词性 属性 。 首 先 ， 将 训练 样本 按 
照 数值 属性 的 值 进行 排序 、 产生 一 个 类 值 的 序列 。 例 如 ， 根 据 温度 属性 值 对 数值 版 本 的 天 气 
数据 〈 表 1-3) 进行 排序 后 产生 的 序列 如 下 : 

64 65 68 69 70 71 72 72 75 75 80 81 83 85 


yes no yes yes yes no no yes yes yes no yes yes no 

离散 通过 在 这 个 序列 上 放置 断 点 来 达到 分 隔 。 一 个 可 行 的 方法 是 在 类 值 发 生变 化 之 处 放 
置 断 点 ， 产 牛 出 8 个 范畴 : 

yes | no | yes yes yes | no no | yes yes yes | no | yes yes | no 

将 断 点 设置 在 两 边 样本 之 间 的 中 间 位 置 ， 即 ，64.5，66.5，70.5，72，77.5，80.5，84。 
然而 ， 两 个 属性 值 为 72 的 实例 产生 了 一 个 问题 ， 因 为 拥有 相同 温度 属性 值 ， 却 属于 不 同 的 类 
别 。 最 简单 的 解决 办 法 是 将 处 于 72 的 断 点 向 右 移 一 个 ， 新 的 断 点 将 是 73.5， 从 而 产生 出 一 个 
混合 的 部 分 ， 其 中 no 是 多 数 类 。 

离散 存在 的 个 严重 问题 是 ， 有 可 能 形成 大 量 的 类 别 范畴 。1R 算 法 将 自然 地 倾向 于 选择 
能 被 分 裂 成 很 多 范畴 的 属性 ， 因 为 它 会 将 数据 集 分 裂 成 很 多 部 分 ， 所 以 实例 与 它们 备 自 所 在 
部 分 的 多 数 类 同属 “类 的 可 能 性 增 大 。 事 实 上 ， 一 个 极端 的 例子 是 每 个 实例 中 一 个 属性 拥有 
一 个 不 同 的 值 。 如 标识 码 (identification code) 属性 表示 实例 是 唯一 的 ， 它 在 训练 数据 上 产生 
的 误差 率 是 0， 因 为 每 个 部 分 只 有 -- 个 实例 。 当 然 ， 高 度 分 支 的 属性 通常 不 能 在 测试 样本 上 有 
很 好 的 表现 ， 实 际 上 标识 码 属性 将 不 可 能 在 训练 实例 以 外 的 样本 上 产生 正确 地 预测 。 这 种 现 
象 被 称 为 过 度 拟 合 (overfitting )。 在 第 1 章 已 经 讨论 过 要 避免 过 度 拟 合 偏差 (第 1.6 节 )， 在 以 
下 的 章节 里 我 们 将 不 断 地 遇 到 这 个 问题 。 

对 于 1R 算 法 ， 当 一 个 属性 存在 大 量 可 能 值 时 ， 过 度 拟 合 就 很 有 可 能 发 生 。 所 以 ， 当 离散 
一 个 数值 属性 的 时 候 ， 需 要 采用 一 条 规则 ， 这 条 规则 规定 了 每 个 范畴 上 的 多 数 类 样本 所 须 达 
到 的 最 小 数量 。 如 果 设 置 的 最 小 样本 数量 是 3， 那 么 上 面 的 分 段 将 只 剩 下 2 个 。 分 段 过 程 将 由 
以 下 形式 开始 : 

yes no yes yes | yes... 

在 第 “ 段 里 ， 确 保 多 数 类 yes 出 现 3 次 。 然 而 紧 接着 的 实例 也 是 yes ， 所 以 将 它 包括 进 第 一 
段 也 不 会 产生 任何 损失 。 新 产生 的 分 离 结果 是 : 

yes no yes yes yes | no no yes yes yes | no yes yes no 

这 样 除了 最 后 - 段 , 每 - 段 至 少 包 括 3 个 属于 多 数 类 的 实例 ， 通 常 在 最 后 一 段 会 出 现 少 于 
3 个 多 数 类 实例 的 情况 。 分 隔 的 边界 -- 般 要 落 在 两 个 不 同类 的 样本 之 间 。 

当 相 邻 的 段 拥有 相同 的 多 数 类 时 ， 像 第 … 和 第 二 段 ， 将 它们 合并 之 后 并 不 会 影响 规则 集 
的 意义 。 所 以 ， 最 终 的 离散 结果 是 : 

yes no yes yes yes no no yes yes yes | no yes yes no 

从 中 产生 的 规则 集 是 


temperature: < 77.5 一 yes 
> 77.5 — no 


第 一 个 规则 包含 一 个 任意 的 决定 ， 这 里 选择 no。 如 果 选 择 yes， 正 如 此 例 所 示 ， 将 没有 必 
要 使 用 任何 断 点 ， 使 用 相 邻 的 类 别 来 打 玻 平局 更 加 合适 。 实 际 上 ， 这 个 规则 在 训练 数据 集 上 
产生 了 5 个 错误 ,不 如 前 面 在 阴 晴 属性 上 产生 的 规则 有 效 。 用 同样 的 方法 在 湿度 属性 上 产生 的 
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规则 如 下 : 


humidity: < 82.5 一 yes 
> 82.5 and < 95.5 一 no 
> 95.5 — yes 


这 个 规则 在 训练 集 上 只 产生 了 3 个 错误 ， 它 是 在 表 1-3 数 据 上 最 好 的 “1 规则 ”。 
最 后 ， 如 果 一 个 数值 属性 存在 残缺 值 ， 便 为 它们 建立 一 个 额外 的 范畴 ， 并 且 只 在 那些 已 
经 定义 了 属性 值 的 实例 上 运用 离散 过 程 。 


4.1.2 讨论 


在 一 个 标题 为 “简单 的 分 类 规则 在 大 多 数 常用 的 数据 集 上 表现 良好 ”( Holte，1993 年 ) 
的 研讨 会 的 论文 中 ,报告 了 在 16 个 数据 集 上 对 1R 性 能 的 深入 研究 ， 这 16 个 数据 集 经 常 被 机 器 
学 习 研 究 人 员 用 来 评估 他 们 的 算法 。 在 这 项 研究 中 使 用 了 交叉 验证 法 (cross-validation) 
这 种 评估 技术 将 在 第 $ 章 介绍 ， 用 来 确保 测试 结果 可 作为 从 独立 测试 集 上 所 能 获得 的 结论 的 代 
表 。 经 测试 ， 在 每 一 个 数值 属性 段 里 ， 最 小 的 样本 数量 被 设 为 6， 而 不 是 上 面 所 演示 的 3。 

令 人 惊奇 的 是 ， 尽 管 1R 非 常 简单 ， 但 是 它 的 表现 却 异 常 突 出 ， 甚 至 可 以 与 经 典 的 机 器 学 
习 算 法 相 媲 美 。 在 几乎 所 有 的 数据 集 上 ， 它 产生 的 正确 率 只 比 由 经 典 的 决策 树 归 纳 方案 产生 
的 决策 树 的 正确 率 低 几 个 百分点 。 这 些 决策 树 通 常 要 比 1R 产 生 的 规则 要 大 很 多 。 只 对 单个 属 
性 进行 测试 的 规则 往往 可 以 成 为 一 个 复杂 结构 的 替代 ， 在 确定 了 性 能 基线 的 情况 下 ， 建 议 采 
用 “简单 优先 ”的 方法 论 ， 首 先 使 用 简单 、 基 本 的 技术 ， 然 后 再 将 它 发 展 成 更 加 精细 的 学 习 
方案 。 显 然 ， 对 精细 学 习 方案 所 产生 的 结果 进行 解释 较为 困难 。 

1R 方 法 学 到 了 一 个 一 层 的 决策 树 ， 它 的 叶子 代表 不 同 的 类 。 一 个 表达 力 稍 强 的 技术 是 对 
每 类 使 用 一 个 不 同 的 规则 。 每 一 个 规则 是 几 个 测试 的 逻辑 与 ， 每 个 测试 与 一 个 属性 相对 应 。 
对 于 数值 属性 ， 测 试 将 检查 属性 值 是 否 在 一 个 给 定 的 区 间 里 ; 对 于 名 词性 属性 将 检查 属性 值 
是 否 在 一 个 属性 值 的 子 集 里 。 有 两 种 形式 的 测试 ， 区 间 和 子 集 ， 是 从 属于 每 个 类 的 训练 数据 
上 学 到 的 。 对 于 数值 属性 ， 区 间 的 端点 是 那个 类 别 的 训练 数据 上 出 现 的 最 大 和 最 小 值 。 对 于 
名 词性 属性 ， 子 集 只 包含 与 类 相对 应 的 实例 里 该 属性 出 现 的 值 。 表 达 不 同类 的 规则 经 常会 重 
稚 ， 在 预测 阶段 ， 使 用 满足 测试 条 件 最 多 的 规则 进行 预测 。 这 些 简 单 的 技术 通常 能 对 一 个 数 
据 集 给 出 有 用 的 第 一 印象 。 它 的 处 理 速度 极 快 ， 能 够 在 极其 庞大 的 数据 上 应 用 。 


4.2 统计 建 模 


1R 方 法 使 用 单个 属性 作为 决策 的 依据 ， 并 且 选 择 其 中 工作 性 能 最 好 的 那个 属性 。 另 一 个 
简单 技术 是 对 于 一 个 给 定 的 类 ， 使 用 所 有 属性 ， 让 它们 对 决策 做 出 同等 重要 、 彼 此 独立 的 贡 
献 。 当 然 ， 这 是 不 现实 的 ， 现 实 的 数据 集 里 的 属性 并 不 同等 重要 ， 也 不 彼此 独立 。 但 是 它 引 
出 一 个 简单 方案 ， 并 且 在 实际 中 表现 极 佳 。 

表 4-2 是 一 个 天 气 数据 的 汇总 ， 它 统计 了 每 种 属性 值 配对 和 玩 的 每 个 属性 值 (yes 和 no ) 
一 同 出 现 的 次 数 。 例 如 ， 从 表 1-2 可 以 发 现 ， 阴 晴 属 性 为 sunny 的 5 个 样本 中 ，2 个 样本 的 玩 = 
yes，3 个 样本 的 玩 = no。 表 4-2 第 一 行为 每 个 属性 所 有 可 能 值 简单 记录 了 这 样 的 出 现 次 数 ， 最 
后 一 列 的 玩 数字 统计 了 yes 和 no 总 共 出 现 的 次 数 。 表 的 下 半 部 分 是 以 分 数 形式 ， 或 用 观察 到 的 
概率 改写 了 同样 的 信息 。 例 如 ， 玩 是 yes 的 天 数 是 3， 其 中 阴 晴 是 sunny 有 2 天 ， 由 此 产生 的 分 
数 是 29。 对 于 (REN) 玩 列 ， 分 数 则 有 不 同 的 含义 ， 它 们 分 别 为 玩 属性 值 是 yes 和 no 的 天 数 
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在 总 天 数 中 所 占 的 百分率 。 
表 4-2 拥有 统计 数 和 概率 的 天 气 数据 
BHO 温度 湿 Æ i ”内 it 

yes no yes no yes no yes no yes no 
sunny 2 3 hot 2 2 high 3 4 false 6 2 9 5 
overcast 4 0 mild 4 2 normal 6 1 true 3 3 
rainy 3 2 cool 3 1 
sunny 2/9 3/5 hot 2/9 2/5 high 3/9 4/5 false 6/9 2/5 9/14 5/14 
overcast 4/9 0/5 mild 4/9 2/5 normal 6/9 1/5 true 3/9 3/5 
rainy 3/9 2/5 cool 3/9 1/5 

表 4-3 新 的 一 天 
BH im OE ie E All A 玩 








sunny cool high true ? 
假设 遇 到 如 表 4-3 所 示 的 一 个 新 样本 。 我 们 认为 表 4-2 中 的 5 个 属性 : 阴 晴 , 温度 , 湿度 , A 
和 玩 为 yes 或 no 的 总 体 似 然 〈likelihood)， 是 同等 重要 、 彼 此 独立 的 ， 并 将 与 其 对 应 的 分 数 相 
乘 。 察 看 结果 为 yes (的 情形 ) 将 给 出 : 
yes 的 似 然 =2/9 x 3/9 x 3/9 x 3/9 x 9/14=0.0053 


yes 的 天 数 占 总 天 数 (14K) 的 百分率 。 对 结果 为 no 的 相似 计算 将 得 到 : 
no 的 似 然 =3/5 x 1/5 x 4/5 x 3/5 x 5/14=0.0206 
可 以 看 出 ， 对 于 这 个 新 的 一 天 ， 玩 是 no 的 可 能 性 是 yes 的 4 倍 。 通 过 正常 化 将 这 两 个 结果 
转换 成 概率 ， 使 它们 的 概率 之 和 为 1。 
0.0053 


4 概率 = 一 ”一 20.5% 
yes 的 概率 = 10953 4.0.0206 ° 
0.0206 
yi E 5% 
n0 的 概 六 = 70053 -+0.0206 ° 


这 个 简单 旦 直观 的 方法 基于 有 条 件 概率 的 贝 叶 斯 规则 。 贝 叶 斯 规则 指出 , 如 果 存 在 一 个 假说 瓦 ， 
和 基于 假说 的 例证 天 ， 那 么 
Pr[E | H)Pr[H] 

Pr[E] 
Pr[4] 指 事件 4 发 生 的 概率 ，Pr[4IB] 是 基于 另 一 事件 引发 生 ， 事 件 4 发 生 的 概率 。 假 说 万 为 玩 的 
结 凡 是 yes， 那 么 PrLHIE] 将 是 20.5%， 正 如 前 面 计算 所 得 。 例 证 E 是 新 的 一 天 的 属性 值 的 特定 
组 合 : BAR = sunny、 温 度 = cool、 湿 度 = high、 刊 风 = true。 这 4 个 例证 分 别 用 E;、E,、Es 和 E， 
表示 。 假 设 这 些 例证 是 独立 的 〈 对 于 给 出 的 类 )， 将 概率 相 乘 后 就 得 到 它们 的 组 合 概率 : 
Pr[E, | yes] x Pr[E, | yes] x Pr[E, | yes] x Pr[E, | yes} x Prfyes] 

Pr[E] 


不 用 担心 分 母 部 分 ， 不 需要 考虑 分 母 ， 因 为 分 母 会 在 最 后 的 正常 化 步骤 (使 yes 和 no 的 概率 之 


Pr[HIE]= 





Prlyes! E]= 
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和 为 1) 里 被 消除 。 最 后 的 Pr[yes] 是 在 不 知道 任何 例证 五 的 情况 下 ， 结 论 是 yes 的 概率 ， 也 就 是 
对 于 所 涉及 的 特定 日 期 的 情况 一 无 所 知 ， 称 为 假说 H 的 先 验 概率 (prior probability )。 在 这 个 
例子 里 ， 是 9/14， 因 为 14 个 训练 样本 里 有 9 个 样本 的 玩 属性 值 是 yes。 将 表 4-2 里 的 分 数 替换 成 
适合 的 例证 概率 得 到 : 
2/9x3/9x3/9x3/9x9/14 

Pr[E] 


和 前 面 计算 的 一 样 。 分 母 Pr[82] 将 在 做 正常 化 时 消失 。 

这 种 方法 称 为 朴素 贝 叶 斯 (Naive Bayes ) ， 因 为 它 基 于 贝 叶 斯 规则 并 “朴素 ”地 假设 OE 
性 ) 独立 。 只 有 当 事 件 彼 此 独立 时 ， 概 率 相 乘 才 是 有 效 的 。 属 性 独立 的 假设 ， 在 现实 生活 中 
肯定 是 过 于 简单 的 假设 。 尽 管 有 些 名 不 符 实 ， 但 在 实际 数据 集 上 进行 测试 时 ， 朴 素 贝 叶 斯 工 
作 得 非常 好 ， 特 别 是 当 与 一 些 在 第 7 章 将 要 介绍 的 属性 选择 程序 相 结 合 后 ， 属 性 选择 程序 可 去 
除数 据 中 的 一 些 元 余 造 成 非 独 立 的 属性 。 

如 果菜 个 属性 值 没 有 联合 每 一 个 类 值 一 起 出 现在 训练 集 里 ， 那 么 朴素 贝 叶 斯 法 将 会 出 错 。 
假设 ， 在 一 个 不 同 的 天 气 数据 中 ， 所 有 训练 数据 的 属性 值 阴 睛 =sunny ， 总 是 伴随 着 结论 no。 
那么 属性 值 阴 晴 =sunny 是 yes 的 概率 Pr[outlook=sunny | yes ] 是 0， 因 为 其 他 的 概率 将 与 这 个 0 相 
乘 ， 所 以 不 管 其 他 的 概率 有 多 么 大 ， 最 终 yes 的 概率 都 将 是 0。 概 率 0 超过 其 他 的 概率 掌握 了 否 
决 权 。 这 不 是 一 个 好 现象 。 然 而 ， 可 根据 频率 来 计算 概率 的 方法 ， 进 行 一 些小 的 调整 ， 便 可 
很 容易 地 弥补 这 个 缺陷 。 

例如 ， 正 如 表 4-2 上 半 部 分 所 示 ， 对 于 玩 =yes， 有 2 个 样本 的 阴 晴 是 sunny; 4 个 样本 的 阴 晴 
是 overcast，3 个 样本 的 阴 晴 是 rainy， 下 半 部 分 给 出 了 这 些 事 件 的 概率 ， 分 别 是 29、4/9 和 3/9。 
我 们 可 以 在 每 一 个 分 子 上 加 1， 并 且 在 分 母 上 加 3 进行 补偿 ， 所 以 得 到 的 概率 分 别 为 3/12，5/12 
和 4/12。 这 将 保证 当 一 个 属性 值 出 现 0 次 时 ， 得 到 一 个 很 小 但 是 非 0 的 概率 。 在 每 一 个 计数 结 
果 上 加 1 的 方法 是 一 个 标准 的 技术 ， 称 为 拉 普 拉 斯 估计 器 (Laplace estimator)， 它 出 自 18 世 纪 
伟大 的 法 国 数学 家 Pierre Laplace。 尽 管 它 在 实际 中 能 很 好 地 工作 ， 但 是 也 没有 特别 的 理由 需 
要 在 计数 结果 上 加 1。 取 而 代 之 ， 可 以 使 用 一 个 很 小 的 常量 4: 

2+u/3 4+HA1/3 和 3+ p/3 

9+u ° 9+u OF , 
这 里 将 4 设 为 3， 它 有 效 地 提供 了 一 个 权 值 ， 这 个 权 值 决定 了 一 个 先 验 值 (1/3, 1/3401/3) 对 
每 个 可 能 属性 值 的 影响 力 。 与 训练 数据 集 的 一 个 新 的 例证 相 比 ， 一 个 大 的 4u 值 说 明 这 些 先 验 值 
是 非常 重要 的 ， 而 小 的 4 值 则 说 明 先 验 值 的 影响 力 较 小 。 最 后 ， 在 分 子 部 分 将 4 平均 地 分 成 3 份 
并 没有 特别 的 理由 ， 所 以 可 以 使 用 以 下 形式 末代 : 

2+ Up, 4+ MP2 和 3 如 

9+u OFM 9+4 
这 里 p,、 记 和 PP 之 和 为 1。 这 3 个 数值 分 别 是 属性 阴 睛 的 值 为 sunny、overcast 和 rainy 时 的 先 验 概率 。 

现在 它 是 一 个 完整 的 贝 叶 斯 公式 ， 先 验 概率 已 经 分 配 到 每 一 个 所 见 到 的 属性 值 。 它 的 优 
点 是 十 分 严密 ， 但 缺点 是 通常 并 不 清楚 应 该 如 何 分 配 先 验 概率 。 在 实践 中 ， 只 要 训练 实例 的 
数量 合理 ， 使 用 不 同 的 先 验 概率 几乎 没有 差别 。 人 们 通常 用 拉 普 拉 斯 估计 器 估计 频率 ， 将 计 
数 结果 初始 化 为 1 而 不 是 0。 


Prlyes | E]= 
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使 用 册 叶 斯 公式 的 一 个 优势 是 : 处 理 残 缺 值 并 不 是 难题 。 例 如 ， 如 果 表 4-3 样 本 中 阴 晴 的 

属性 值 是 残缺 值 ， 计 算 时 只 需要 省 略 这 个 属性 ， 结 果 是 : 

yes 的 似 然 =3/9 x 3/9 x 3/9 x 9/14=0.0238 

no 的 似 然 =1/5 x 4/5 x 3/5 x 5/14=0.0343 
这 两 个 值 分 别 比 前 面 的 计算 值 要 高 出 很 多 ， 原 因 是 缺少 了 其 中 的 一 个 分 数 。 但 这 并 不 会 成 为 
问题 ， 因 为 两 个 公式 都 缺少 一 个 分 数 ， 这 些 似 然 还 要 被 正常 化 。 最 终 产 生 的 yes 和 no 的 概率 分 
别 是 41% 和 59%。 

在 一 个 训练 实例 中 ， 如 果 一 个 属性 值 残缺 ， 它 便 不 被 包括 在 频率 计算 中 ， 概 率 的 计算 取 
决 于 真正 出 现 属性 值 的 训练 实例 的 个 数 ， 而 不 是 训练 实例 的 总 数 。 

在 处 理 数量 值 时 ， 通 常 把 它们 假设 成 拥有 “ 正 态 ”(normal) 或 者 “高 斯 ”(Gaussian) 的 
概率 分 布 形式 。 表 4-4 对 天 气 数据 做 了 总 结 ， 其 中 数值 属性 数据 来 源 于 表 1-3。 对 于 名 词性 属性 
的 计算 方法 和 以 前 一 样 ， 对 于 数值 属性 ， 只 需 列 出 所 有 出 现 的 值 。 然 后 ， 名 词性 属性 的 统计 值 
经 正常 化 成 为 概率 ; 而 数值 属性 ， 则 计算 出 每 一 个 数值 属性 在 每 一 个 类 上 的 平均 值 (mean) 
和 标准 差 (standard deviation )。 所 以 ， 所 有 类 值 为 yes 的 实例 在 属性 温度 上 的 平均 值 是 73 i 
准 差 是 6.2。 这 里 的 平均 值 是 (数值 属性 在 同一 个 类 上 的 ) 平均 属性 值 ， 也 就 是 (在 同一 个 类 
上 的 ) 属性 值 之 和 除 以 属性 值 的 个 数 。 标 准 差 是 样本 方差 (variance) 的 平方 根 值 ， 计 算 方法 
A: 将 每 一 个 属性 值 减 去 平均 值 后 进行 平方 ， 然 后 求 和 ， 最 后 除 以 属性 值 的 个 数 减 1。 在 求 出 
这 个 样本 的 方差 后 ， 再 对 方差 取 平 方 根 得 到 标准 差 。 这 是 对 一 个 数据 集 计算 平均 值 和 标准 差 的 
标准 方法 (“ 减 1” 是 为 了 得 到 样本 的 自由 度 ， 这 是 一 个 统计 学 概念 ， 这 里 将 不 再 深入 介绍 )。 


表 4-4 ”数值 天 气 数据 和 统计 结果 











阴 了 晴 im E 湿度 天 al it 
yes no yes no yes no yes no yes no 
sunny 2 3 83 85 86 85 false 6 2 9 5 
overcast 4 0 70 80 96 90 true 3 3 
rainy 3 2 68 65 80 70 
64 72 65 95 
69 71 70 91 
75 80 
75 70 
72 90 
81 75 


sunny 2/9 3/5 平均 73 74.6 平均 79.1 86.2 faise 6/9 2/5 9/14 5/14 
overcast 4/9 05 标准 益 62 79 标准 益 10.2 97 true 3/9 3/5 
rainy 3/9 25 


对 于 一 个 平均 值 为 4 和 标准 差 为 的 正 态 分 布 , CREEAREA ESAE. 





1 
f= 5 
不 必 害怕 ! 它 意 味 着 ， 当 属性 温度 有 个 值 ， 璧 如 说 66， 如 果 考 虑 yes 的 结果 ， 只 需 将 t-66， 
A=73 和 G= 6.2 代 入 公式 。 所 以 由 概率 密度 公式 得 出 的 值 为 : 





PAK Hik: RAFE 63 








_ (66-73) 


1 pea 
Ff (temperature = 66) yes) = Jin 62° 262 = 0.0340 


当 属性 湿度 的 值 是 90 时 ， 使 用 相同 方法 计算 结论 为 yes 的 概率 密度 : 
f(humidity = 90 | yes) = 0.0221 
某 个 事件 的 概率 密度 国 数 与 它 的 概率 是 密切 相关 的 。 然 而 ， 它 们 并 不 是 一 回 事 。 如 果 温 度 是 ， 
连续 的 ， 那 么 当 温度 正好 是 66 或 是 其 他 任何 值 ， 比 如 63.141 592 62 时 的 概率 就 为 0 。 概 率 密 ， 
度 函 数 (9) 的 真正 含义 是 指 这 个 量 落 在 x 附 近 的 一 个 很 小 区 域 里 ， 璧 如 说 在 z- 82 和 x+e/2 之 间 ， 
的 概率 是 sf (z)。 如 果 温 度 测 量 是 〈 与 真实 值 ) 最 为 接近 的 度数 ， 温 度 测量 也 是 《与 真实 值 ) [93] 
最 为 接近 的 百分点 ， 那 么 上 面 所 得 到 的 便 是 正确 的 。 当 使 用 这 些 概率 时 ， 你 也 许 会 认为 应 该 ， 
要 乘 以 精确 值 e， 然 而 没有 必要 。 因 为 同样 的 会 出 现在 yes 和 no 的 似 然 中 ， 并 且 在 计算 概率 时 ， 
被 消除 。 
对 表 4-5 所 列 的 新 的 天 运用 这 些 概率 ， 得 到 
yes 的 似 然 =2/9 x 0.0340 x 0.0221 x 3/9 x 9/14=0.000 036 
no 的 似 然 =3/5 x 0.0221 x 0.0381 x 3/5 x 5/14=0.000 108 


由 此 产生 的 概率 为 : 


0.000 036 
5 =O 25.0% 
Ye 的 概 半 = 7 550 036 + 0.000 108 ° 


© 0.000108 
no 的 概率 0 090 036+ 0.000 108 


这 些 数值 与 先前 对 表 4-3 所 示 的 新 的 一 天 的 概率 计算 结果 非常 接近 ， 因 为 属性 温度 和 湿度 的 属 
性 值 分 别 为 66 和 90， 与 前 面 使 用 cool 和 high 分 别 作为 这 两 个 属性 值 时 计算 出 的 概率 相似 。 
表 4-5 另 一 个 新 的 一 天 
BR mo AE i E al A 玩 


=75.0% 





sunny 66 90 true ? 


正 态 分 布 的 假设 很 容易 将 朴素 贝 叶 斯 分 类 器 进行 扩展 ， 使 它 能 够 处 理 数 值 属性 。 如 果 任 
何 数值 遍 性 的 值 有 残缺 ， 那 么 平均 值 和 标准 差 的 计算 仅 基于 现 有 的 属性 值 。 


4.2.2 用 于 文档 分 类 的 贝 叶 斯 模型 


机 器 学 习 的 -… 个 重要 领域 是 文档 分 类 ， 其 中 每 一 个 实例 就 是 一 个 文档 ， 而 实例 的 类 就 是 
文档 的 主题 。 如 果 文 档 是 新 闻 ， 那 么 它 的 类 也 许可 以 是 国内 新 闻 、 海 外 新 闻 、 财 经 新 闻 和 体 
育 新 闻 。 文 挡 的 特性 是 由 出 现在 文档 中 的 单词 所 描述 的 ， 一 种 应 用 机 器 学 习 对 文档 分 类 的 方 
法 是 用 布尔 值 属 性 表示 每 个 单词 的 出 现 或 者 空缺 。 在 文档 分 类 的 应 用 方面 朴素 贝 叶 斯 是 一 个 
深 受 欢迎 的 技术 ， 因 为 它 的 处 理 速度 快 而 且 正确 率 高 。 

然而 ， 朴 素 贝 叶 斯 法 忽略 了 每 个 单词 在 文档 中 出 现 的 次 数 ， 而 在 决定 一 个 文档 的 分 类 时 ， 这 
些 信息 拥有 潜在 的 重要 价值 。 取 而 代 之 ， 一 个 文档 可 以 被 看 成 是 一 袋 单 词 (a bag of words) — [94] 
即 一 个 集合 ， 这 个 集合 包含 文件 中 所 有 单词 ， 在 文件 中 多 次 出 现 的 单词 在 集合 中 也 多 次 出 现 
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(从 技术 上 说 ， 一 个 集合 所 包含 的 每 个 成 员 应 是 唯一 的 ， 而 一 袋子 可 以 拥有 重复 的 成 员 )。 采 
用 一 个 修改 过 的 朴素 贝 叶 斯 便 可 利用 单词 的 频率 ， 这 个 修改 过 的 朴素 贝 叶 斯 有 时 称 为 多 项 梓 
素 贝 叶 斯 。 

: Ritm, m, o m 是 单词 在 文件 中 出 现 的 次 数 ，P1，P,，…，Pi 是 从 所 有 用 类 文档 中 取 
| 样 得 到 单词 的 概率 。 假设 概率 与 单词 的 上 下 文 以 及 单词 在 文件 中 的 位 置 无 关 。 这 些 假设 产生 
| 出 一 个 文档 概率 的 多 项 式 分 布 (multinomial distribution )。 在 这 种 分 布 中 ， 对 于 一 个 给 定 类 别 
| # 文件 E 的 概率 ， 换 旬 话 说 ， 计 算 贝 叶 斯 规则 中 Pr [E | ARIA 


k ni 
Pr[E| H] = Nix] J% 
i=l n: 


这 里 ，N=m+rm+…+m 是 文件 中 单词 的 数量 。 使 用 阶乘 的 原因 是 考虑 到 根据 单词 袋 (bag- 
of-words) 模型 中 每 个 单词 出 现 的 次 序 并 不 重要 。P; 是 通过 计算 在 所 有 属于 类 别 妃 的 训练 文档 
| 中 ， 单 词 i 出 现 的 相对 频率 而 得 到 的 估计 。 实 际 上 ， 应 该 再 有 一 项 ， 即 类 别 H 的 模型 产生 出 与 E 
| 长 度 相 等 的 文件 的 概率 ，( 这 就 是 为 什么 要 用 = 而 不 是 = )， 但 是 通常 假设 对 于 所 有 类 别 来 说 
(这 个 概率 ) 都 是 相等 的 ， 因 此 可 以 忽略 这 一 项 。 

例如 ， 假 设 单词 表 里 只 有 两 个 单词 : 黄 (yellow) 和 蓝 (blue)， 一 个 特定 文档 类 别 妃 存在 
PryellowlH]=75%, Pr[bluelH]=25% (trie PRA BIH ARE (yellowish green) 类 文档 )。 假 
如 E 是 文档 blue yellow blue， 长 度 N= 3 个 单词 。 存 在 4 个 可 能 的 、 拥 有 3 个 词 的 单词 袋 。 一 个 是 
{yellow yellow yellow} ， 根 据 上 面 得 出 的 公式 得 到 它 的 概率 为 : 
075 0.25° _ 27 
3! o 64 


| 
| 
| 
| 
| 








Pr[ {yellow yellow yellow}| H] = 3!x 


其 他 3 个 的 概率 分 别 是 : 
1 
Pr[ {blue blue blue}| HI]= 一 


Pr[ {yellow yellow blue}| H]= a 


Pr[ {yellow blue blue}i H] = 2 


这 里 的 有 与 最 后 一 种 情况 相对 应 (注意 : 在 一 袋 单 词 中 的 单词 次 序 可 以 忽略 ) ; 所 以 由 黄 绿 文 
档 模 型 产生 出 E 的 概率 是 9/64， 或 14%。 假 如 另 一 个 类 ， 蓝 绿 (very bluish green) 文档 (PRE 
为 FH )， 拥 有 的 概率 Pr[yellowlIH′]=10%，Pr[bluelH']=90%。 由 这 个 模型 产生 出 E 的 概率 为 24%。 

如 果 只 有 这 两 个 类 ， 是 不 是 意味 着 E 是 蓝 绿 文档 类 呢 ?” 并 不 一 定 。 前 面 给 出 的 贝 叶 斯 规则 
说 ， 必 须 考 虑 每 一 个 假说 的 先 验 概率 。 如 果 你 实际 上 知道 蓝 绿 文档 罕见 程度 是 黄 绿 文档 的 两 
倍 ， 这 将 足够 胜 过 14% 和 24% 的 不 同 ， 倾 向 于 黄 绿 类 文档 。 

前 面 概率 公式 中 的 阶乘 并 不 需要 真正 计算 ， 因 为 它 对 于 每 一 个 类 是 一 样 的 ， 所 以 会 在 正 
常 化 的 过 程 中 被 消除 。 然 而 ， 在 公式 里 仍然 需要 将 很 多 小 概率 相 乘 ， 这 将 迅速 产生 出 非常 小 
的 数值 ， 从 而 在 大 的 文 挡 上 造成 下 洲 。 不 过 这 种 问题 可 以 通过 对 概率 取 对 数 替代 概率 本 身 来 
避免 。 

在 多 项 朴素 贝 叶 斯 公式 里 ， 判 断 一 个 文档 的 类 不 仅 要 根据 文档 中 出 现 的 单词 ， 还 要 根据 
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这 些 单词 在 文档 中 出 现 的 次 数 。 对 于 文档 分 类 来 说 ， 多 项 朴素 贝 叶 斯 模型 的 性 能 通常 优 于 普 
通 的 朴素 贝 叶 斯 模型 ， 尤 其 在 大 型 字典 级 的 文档 上 表现 尤其 突出 。 


4.2.3 讨论 

朴素 贝 叶 斯 法 给 出 了 一 个 简单 并 且 概 念 清晰 的 方法 ， 来 表达 、 使 用 和 学 习 概 率 的 知识 。 
使 用 它 能 够 达到 很 好 的 预测 结果 。 在 许多 数据 集 上 ， 朴 素 贝 叶 斯 的 性 能 能 与 一 些 更 加 成 熟 的 
分 类 器 相 媲 美 ， 其 至 会 有 更 出 色 的 表现 。 有 一 名 格言 是 ， 始 终 从 简单 的 方法 人手 。 同 样 地 ， 
在 机 器 学 习 领 域 ， 人 们 不 断 地 努力 使 用 更 精细 的 学 习 方 案 想 获得 好 的 预测 结果 ， 但 是 最 终 只 
是 在 几 年 后 发 现 ， 那 些 简单 的 方法 ， 如 1R 和 朴素 贝 叶 斯 能 够 得 到 同样 好 、 甚 至 更 好 的 结果 。 

朴素 贝 叶 斯 法 在 很 多 数据 集 上 的 表现 差强人意 ， 其 中 的 原因 很 容易 发 现 。 因 为 朴素 贝 叶 斯 
处 理 属性 的 时 候 ， 认 为 属性 之 间 是 完全 独立 的 ， 所 以 一 些 元 余 的 属性 会 破坏 机 器 学 习 过 程 。 一 
个 极端 的 例子 是 ， 如 果 在 天 气 数据 中 加 入 一 个 新 的 属性 ， 该 属性 拥有 与 属性 温度 相同 的 值 ， 那 
么 属性 温度 的 影响 力 将 会 增加 : 属性 温度 的 所 有 概率 将 被 平方 ， 在 最 后 的 决策 上 具有 更 大 的 影 
响 力 。 如 果 在 数据 集中 加 入 10 个 这 样 的 属性 ， 那 么 最 终 的 决策 将 仅 根据 属性 温度 而 做 出 。 属 性 
之 间 的 依赖 性 不 可 避免 地 会 降低 朴素 贝 叶 斯 识别 数据 中 究竟 发 生 什么 的 能 力 。 然 而 ， 这 种 情况 
可 以 通过 在 决策 过 程 中 ， 采 用 仔细 挑选 属性 子 集 的 方法 来 避免 。 第 7 章 将 阐述 如 何 选择 属性 。 

对 于 数值 属性 ， 正 态 分 布 的 假设 是 朴素 贝 叶 斯 的 另 一 个 限制 ， 我 们 在 这 里 进行 一 些 说 明 。 
许多 属性 值 并 不 呈正 态 分 布 。 然 而 ， 对 于 数值 属性 ， 我 们 也 可 以 采用 其 他 分 布 形 式 : ERD 
布 并 没有 特殊 的 魔力 。 如 果 你 知道 一 个 特定 的 属性 可 能 遵循 其 他 的 分 布 形式 ， 可 以 使 用 那 种 
分 布 形式 的 标准 估计 过 程 。 如 果 你 怀疑 数值 分 布 不 是 正 态 分 布 ， 又 不 知道 真正 的 分 布 形式 ， 


可 以 使 用 “ 核 密度 估计 ”(kernel density estimation) 过 程 ， 核 密度 估计 并 不 把 属性 值 的 分 布 


假设 成 任何 特定 形式 的 分 布 。 另 -种 可 行 的 处 理 方 法 是 首先 将 数据 离散 。 


4.3 分 治 法 : 创建 决策 树 


创建 决策 树 的 问题 可 以 用 递归 形式 表示 。 首 先 ， 选 择 一 个 属性 放置 在 根 节点 ， 为 每 一 个 
可 能 的 属性 值 产生 -个 分 支 。 这 将 使 样本 集 分 裂 成 多 个 子 集 ， 一 个 子 集 对 应 于 一 个 属性 值 。 
然后 在 每 “个 分 支 上 递归 地 重复 这 个 过 程 ， 仅 使 用 真正 到 达 这 个 分 支 的 实例 。 如 果 在 一 个 节 
点 上 的 所 有 实例 拥有 相同 的 类 别 ， 即 停止 该 部 分 树 的 扩展 。 

唯一 存在 的 问题 是 ， 对 于 一 个 给 定 的 、 拥 有 不 同类 别 的 样本 集 ， 如 何 判断 应 该 在 哪个 属 
性 上 进行 分 裂 。 再 次 来 看 天 气 数据 ， 每 次 分 裂 都 存在 4 种 可 能 性 ， 在 最 顶层 产生 的 树 如 图 4-2 
所 示 。 哪 个 才 是 最 好 的 选择 呢 ? 类 分 别 是 yes 和 no 的 实例 数量 显示 在 叶子 上 。 当 叶子 只 拥有 单 
-类 别 yes 或 no 时 ， 将 不 必 继 续 分 裂 ， 到 达 那 个 分 支 的 递归 过 程 也 将 停止 。 因 为 我 们 要 寻找 较 
小 的 树 ， 所 以 希望 递归 过 程 尽 早 停止 。 如 果 能 够 测量 每 一 个 节点 的 纯度 ， 就 可 以 选择 能 产生 
最 纯 子 节点 的 那个 属性 进行 分 裂 。 观 察 图 4-2， 然 后 思考 哪个 属性 是 最 佳 选 择 。 

我 们 将 要 使 用 的 纯度 量度 被 称 为 信息 量 (information )， 量 度 单位 是 位 (bit)。 纯 度量 度 
与 树 的 一 个 节点 相关 联 ， 代 表 了 一 个 期 望 信息 总 量 ， 用 于 说 明 到 达 这 个 节点 的 新 实例 将 被 分 
到 yes 还 是 no 类 所 需 的 信息 总 量 。 不 同 于 计算 机 内 存 所 用 的 位 ， 这 里 所 期 望 的 信息 量 通常 牵涉 
到 1 位 中 的 部 分 一 一 经 常 小 于 1! 根据 在 那个 节点 上 yes 和 no 类 的 实例 数量 来 计算 。 我 们 很 快 将 





在 后 面 看 到 计算 的 具体 细节 。 首 先 讨论 如 何 使 用 它 。 当 对 图 4-2 的 第 1 个 树 进 行 评估 时 ， 在 叶 [97] 
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c) d) 
图 4-2 天 气 数据 树 的 树桩 
节点 上 的 yes 和 no 类 的 实例 数量 分 别 是 [2，3]、[4，0] 和 [3，2]， 因 此 ， 这 些 节 点 上 的 信息 值 分 
别 是 : 


info([2，3])=0.971 位 
info([4，0])=0.0 位 
info([3 2])=0.971 位 
计算 它们 的 平均 信息 值 ， 并 考虑 到 达 每 个 分 支 的 实例 的 数量 : 有 5 个 实例 到 达 第 1 和 第 3 分 
支 ; 4 个 实例 到 达 第 2 分 支 。 
info([2, 3], [4, 0], [3, 2])=(5/14) x 0.971+(4/14) x 0+(5/14) x 0.971=0.693 位 
这 个 平均 值 代表 了 期 望 的 信息 总 量 ， 它 是 由 指 给 定 如 图 4-2a 所 示 的 树 结构 ， 对 一 个 新 实 
例 的 类 别 进行 说 明 所 必需 的 信息 量 。 
在 任何 初始 树 (图 4-2 所 示 ) 创建 之 前 ， 处 于 根 节 点 的 训练 样本 由 9 个 yes 和 5 个 no 组 成 ， 与 
之 相对 应 的 信息 值 是 
info([9，5])=0.940 位 
因此 图 4-2a 树 所 获 的 信息 增益 (information gain) 为 : 
gain(outlook)=info([9，5]) -info ([2, 3], [4, 0], [3, 2]) =0.940 - 0.693=0.247 位 
它 能 够 解释 成 在 属性 阴 晴 上 建立 一 个 分 支 的 信息 值 。 
随后 的 方法 就 很 清楚 了。 为 每 一 个 属性 计算 信息 增益 ， 选 择 获得 最 多 信息 量 的 属性 进行 
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分 裂 。 图 生 2 的 信息 增益 分 别 是 : 
gain(outlook)=0.247 位 
gain(temperature)=0.029 位 
gain(humidity)=0.152 位 
gain(windy)=0.048 位 
所 以 在 根 节 点 选择 阴 畏 作为 分 裂 属 性 。 希望 这 个 最 佳 选择 与 你 的 直觉 相 一 致 。 它 是 唯一 
能 获得 一 个 全 纯 子 节点 的 选择 ， 这 为 阴 睛 属性 超越 其 他 所 有 属性 赢得 了 相当 大 的 优势 。 湿 度 
属性 是 第 2 个 最 佳 选择 ， 因 为 它 产 生 了 一 个 几乎 是 全 纯 且 较 大 的 子 节点 。 
接着 继续 进行 递归 过 程 。 图 4-3 显 示 了 在 阴 晴 属性 值 为 sunny 的 节点 上 的 进一步 分 支 的 可 
能 性 。 很 明显 ， 在 属性 阴 晴 上 的 再 次 分 裂 不 会 发 生 任何 新 的 变化 ， 所 以 仅 考虑 其 他 3 个 属性 。 
在 这 3 个 属性 上 产生 的 信息 增益 分 别 为 : 
gain(temperature)=0.571 位 
gain(humidity)=0.971 位 
gain(windy)=0.020 位 
因此 选择 湿度 属性 作为 在 这 一 节点 的 分 裂 属性 。 在 随 之 产生 的 子 节点 上 并 不 需要 进一步 分 裂 ， 
所 以 这 个 分 支 就 结束 了 。 





a) b) 





c) 
图 4-3 天 气 数据 的 扩展 树桩 
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继续 应 用 这 样 的 思想 方法 ， 将 产生 关于 天 气 数据 的 决策 树 ， 如 图 4-4 所 示 。 理 想 的 停止 条 
件 是 所 有 叶 节点 都 是 纯 的 ， 也 就 是 当 叶 节点 包含 的 实例 拥有 相同 的 类 别 时 。 然 而 ， 也 许 并 不 
可 能 达到 这 种 理想 状态 ， 因 为 当 训练 集 里 包含 2 个 拥有 相同 属性 值 ， 但 是 属于 不 同类 别 的 样本 
时 ， 递 归 过 程 将 不 可 能 停止 。 所 以 ,停止 条 件 应 为 当 数据 不 能 被 进一步 分 裂 时 。 





图 4-4 天 气 数据 的 决策 树 


4.3.1 计算 信息 量 
现在 讨论 如 何 计算 用 于 对 不 同 分 裂 进行 评估 的 信息 量 。 这 一 节 将 描述 基本 的 思想 ， 下 一 
节 将 考察 一 个 修正 的 方法 ， 它 通常 是 用 来 克服 对 那些 存在 众多 可 能 值 的 属性 进行 分 裂 选择 时 
的 偏差 。 
一 个 给 定 的 样本 到 达 某 个 含有 一 定数 量 的 yes 实 例 和 no 实例 的 节点 ， 在 考察 对 这 个 样本 进 
行 分 类 所 需 的 信息 总 量 计算 公式 之 前 ， 首 先 来 考虑 一 下 我 们 期 望 这 个 量 值 所 拥有 的 属性 : 
1) 当 yes 或 者 no 的 实例 数量 为 0 时 ， 信 息 量 为 0。 
2) 当 yes 和 no 的 实例 数量 相同 时 ， 信 息 量 达到 最 大 。 
另外 ， 这 种 量度 不 仅 能 够 应 用 在 二 类 问题 ， 而 且 还 要 能 应 用 在 多 类 问题 上 。 
信息 测量 与 制定 决策 所 获得 的 信息 量 相关 ， 考 虑 决策 的 本 质 能 获得 更 为 微妙 的 信息 特性 。 
决策 能 够 一 次 性 做 出 ， 或 者 分 几 个 阶段 做 出 ， 在 两 种 情况 下 所 包含 的 信息 量 是 相同 的 。 例 如 : 
info([2, 3, 4)) 
所 包含 的 决策 能 够 由 2 个 阶段 做 出 。 首 先决 定 是 否 为 第 一 种 情形 ， 或 者 是 其 他 两 种 情形 中 
的 一 种 : 
info({2, 7]) 
然后 决定 其 他 两 种 情形 是 什么 : 
info([3，4]) 
有 些 时 候 ， 不 需要 做 第 二 步 决 策 ， 即 当 决策 结果 为 第 一 种 情形 时 。 考 虑 这 些 因 素 后 产生 
如 下 等 式 : 
info([2, 3, 4])= info([2，7])+(7/9) x info([3 4]) 
当然 ， 这 些 数 字 并 没有 特殊 的 含义 ， 忽 略 这 些 真实 值 ， 与 此 类 似 的 关系 一 定 是 成 立 的 。 
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由 此 可 以 在 先前 的 清单 上 增加 一 条 标准 : 

3) 信息 必须 遵循 如 上 所 示 的 多 阶段 特性 。 

令 人 惊喜 的 是 只 用 一 个 函数 便 能 满足 所 有 这 些 特性 ， 称 为 信息 值 (information value) 或 
418 (entropy) : 

entropy(P,, P2377 P,) =—P; log p, — p, log p, ---— p, log p, 

使 用 负 号 是 因为 分 数 p1, p;,…, Pe ORE, ETS BR IER. RT BR 
2， 焕 是 以 “位 ”为 单元 的 ， 就 是 通常 在 计算 机 上 使 用 的 位 。 

MIA BAB Bp, pp, 为 分 数 ， 它 们 的 和 为 1 ， 例 如 

info([2, 3, 4])=entropy(2/9, 3/9, 4/9) 


多 级 的 决策 特性 通常 写成 如 下 形式 : 


entropy(p, q, 7) = entropy(p,qt+r)+(q+r)- entropy 9 ， r | 
q+r q+r 








i Bpt+qtr=1. 

因为 采用 对 数 计算 方法 ， 信 息 量 度 计 算 不 需要 算出 各 个 分 数 ， 例 如 

info([2,3.4])= — 2/9 x log2/9 - 3/9 x log3/9 — 4/9 x log4/9 
=[ ~ 2log2 — 3log3 ~ 4log4+9log9]/9 
这 是 在 实际 中 通用 的 信息 量度 计算 方法 。 所 以 图 4-2 第 一 个 树 的 第 一 个 叶 节点 的 信息 值 是 : 
info([2,3])= — 2/5 x log2/5 - 3/5 x log3/5=0.97 14 

与 在 先前 (第 4.3 节 ) 得 到 的 结果 是 一 样 的 。 

4.3.2 高 度 分 支 属 性 


当 一 些 属性 拥有 的 可 能 值 的 数量 很 大 ， 从 而 使 分 支 的 路 径 增加 ， 产 生出 很 多 子 节点 时 ， 
计算 信息 增益 就 会 出 现 一 个 问题 。 这 个 问题 可 以 通过 一 个 极端 的 例子 来 说 明 ， 当 数据 集 的 某 
个 属性 对 于 每 “个 实例 存在 一 个 不 同属 性 值 时 ， 譬 如， 一 个 标识 码 属性 。 


表 4-6 ” 带 有 标识 码 的 天 气 数据 








标识 码 HO 晴 im E w E al JA t 
a sunny hot high false no 
b sunny hot high true no 
c overcast hot high false yes 
d rainy mild high false yes 
e rainy cool normal false yes 
f rainy cool normal true no 
g overcast cool normal true yes 
h sunny mild high false no 
i sunny cool normal false yes 
j rainy mild normal false yes 
k sunny mild normal true yes 
1 overcast mild high true yes 
m overcast hot normal false yes 
n rainy mild high true no 


eA a AEN A e e a 
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表 4-6 给 出 了 带 有 额外 属性 的 天 气 数据 。 图 4-5 对 标识 码 属性 进行 分 裂 而 产生 树桩 。 给 定 这 

个 属性 的 值 ， 要 说 明 它 的 类 别 所 需 的 信息 量 是 : 
info([0, 1])+info({0, 1])+info([1, 0])+ …+info([1，0])+info([0， 1]) 

由 于 14 项 中 的 每 一 项 都 是 0， 所 以 信息 量 为 0。 这 个 结果 并 不 奇怪 : 标识 码 属性 能 够 区 别 每 个 
实例 ， 所 以 它 能 确定 类 别 ， 而 不 会 出 现任 何 模棱两可 
的 情况 ， 如 表 本 6 所 示 。 所 以 这 个 属性 的 信息 增益 就 是 
在 根 节点 上 的 信息 量 ， 即 info([9，5])=0.940 位 。 它 比 
在 其 他 任何 属性 上 获得 的 信息 增益 值 要 大 ， 毫 无 疑问 
标识 码 将 被 选 为 分 裂 属性 。 但 是 在 标识 码 属性 上 的 分 
支 对 预测 未 知 实例 的 类 别 并 没有 任何 帮助 ， 也 没 能 描 
述 任何 有 关 决 策 的 结构 ， 而 这 两 点 正 是 机 器 学 习 的 双 
重 目标 。 

由 此 可 见 ， 采 用 度量 信息 增益 的 方法 会 倾向 于 选择 拥有 较 多 可 能 属性 值 的 属性 。 为 了 弥 
补 这 一 缺陷 ， 一 个 称 为 增益 率 (gain ratio) 的 量度 修正 被 广泛 采用 。 增益 率 的 获得 考虑 了 属 
性 分 裂 数据 集 后 所 产生 的 子 节点 的 数量 和 规模 ， 而 忽略 任何 有 关 类 别 的 信息 。 在 图 4-5 的 情形 
中 ， 每 个 分 支 只 含 1 个 实例 ， 所 以 分 裂 后 的 信息 值 为 : 

info([1，1，…，1]) = — 1/14 x log1/14 x 14 


因为 同样 的 分 数 1/14 出 现 了 14 次 ， 所 以 结果 为 log14 或 3.807 位 ， 这 是 一 个 非常 高 的 信息 值 。 因 
为 分 裂 后 所 产生 的 信息 值 是 指 要 确定 各 个 实例 应 该 被 分 配 到 哪个 分 支 上 所 需要 的 位 数 ， 分 支 
越 多 ， 这 个 信息 值 越 大 。 增 益 率 的 计算 方法 是 将 原来 的 信息 增益 ， 在 这 个 例子 中 是 0.940， 除 
以 这 个 属性 的 信息 值 3.807， 得 到 标识 码 属性 的 增益 率 0.247。 
再 返回 图 4-2 天 气 数据 的 树 柱 ， 属 性 阴 晴 将 数据 集 分 裂 成 3 个 子 集 ， 规 模 分 别 为 5、4 和 5， 
因此 不 考虑 子 集中 所 包含 的 类 别 ， 产 生 一 个 内 在 的 信息 值 ; 
info([5, 4, 5])=1.577 
可 以 看 出 ， 越 是 高 度 分 支 的 属性 ， 这 个 内 在 的 信息 值 也 越 大 ， 正 如 在 假定 的 标识 码 属性 上 得 
到 的 信息 值 。 信 息 增益 可 以 通过 将 其 除 以 内 在 的 信息 值 ， 从 而 获得 增益 率 的 方法 来 进行 修正 。 
表 4-7 总 结 了 对 图 4-2 所 示 树桩 的 计算 结果 。 属 性 阴 晴 的 结果 依然 排 在 首位 ， 而 属性 湿度 以 
一 个 更 为 接近 的 值 排 在 第 二 位 ， 因 为 它 将 数据 集 分 裂 成 ?个子 集 而 不 是 3 个 。 在 这 个 例子 中 ， 
假定 的 标识 码 属性 以 0.247 的 增益 率 ， 仍 然 是 四 个 属性 中 的 首选 。 然 而 ， 它 的 优势 已 经 大 大 降 
低 。 在 实际 的 开发 过 程 中 ， 可 以 采用 一 个 特别 的 测试 来 防止 在 这 类 无 用 属性 上 的 分 裂 。 


表 4-7 对 图 4-2 所 示 树 桩 的 增益 率 计算 





图 4-5 标识 码 属性 的 树桩 


BAR im fF i Æ HOO A 
信息 量 : 0.693 信息 量 : 0.911 信息 量 : 0.788 信息 量 : 0.892 
增益 : 0.940- 0.247 增益 : 0.940- 0.029 增益 : 0.940 0.152 增益 : 0.940- 0.048 
0.693 0.911 0.788 0.892 
分 裂 信 息 量 : 1.577 分 裂 信息 量 : 1.557 分 裂 信息 量 : 1.000 分 裂 信息 量 : 0.985 
info([5,4,5]) info([4,6,4]) info ([7,7]) info([8,6]) 
增益 率 : 0.157 增益 率 : 0.019 增益 率 : 0.152 增益 率 : 0.049 


0.247/1.577 


0.029/1.557 


0.152/1 


0.048/0.985 
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不 幸 的 是 ， 在 一 些 情况 下 增益 率 修正 法 补偿 过 度 ， 会 造成 倾向 于 选择 某 个 属性 的 原因 ， 
仅仅 是 因为 这 个 属性 的 内 在 信息 值 比 其 他 属性 要 小 很 多 。 一 个 标准 的 弥补 方法 是 选择 能 够 得 
到 最 大 增益 率 的 属性 ， 而 且 那 个 属性 的 信息 增益 至 少 要 等 于 所 有 属性 的 信息 增益 的 平均 值 。 


4.3.3 讨论 

用 分 治 法 解决 决策 树 归纳 问题 ， 有 了 时 称 为 自 上 而 下 的 决策 树 归纳 法 (top-down induction 
of decision trees ) ， 由 澳大利亚 悉尼 大 学 的 J Ross Quinlan 开 发 ， 并 经 过 了 多 年 的 改进 。 尽 管 
其 他 机 器 学 习 的 研究 人 员 也 在 研究 相似 的 方法 ， 但 是 Quinlan 的 研究 成 果 总 是 处 于 决策 树 归纳 
技术 的 最 前 沿 。 前 面 所 描述 的 使 用 信息 增益 标准 ， 从 本 质 上 看 与 称 为 ID3 的 方法 是 一 致 的 。 使 
用 增益 率 是 多 年 来 用 于 改进 ID3 的 方法 之 一 。Quinlan 认 为 它 是 一 个 广泛 适用 于 不 同情 况 的 稳 
定 方案 。 尽 管 它 是 一 个 强壮 且 实 用 的 方案 ， 但 是 它 牺牲 了 一 些 信息 增益 标准 的 部 分 清晰 、 优 
雅 的 理论 动机 。 

在 称 为 C4.5 的 决策 树 归纳 的 一 个 实用 且 有 影响 力 的 系统 中 , 积累 了 一 系列 改进 ID3 的 方法 。 


在 第 6.1 节 中 描述 。 
44 覆盖 算法 : 建立 规则 


如 上 所 述 ， 决 策 树 算法 是 基于 分 治 法 来 解决 分 类 问题 的 。 它 们 自 上 而 下 ， 在 每 一 个 阶段 
寻找 一 个 能 将 实例 按 类 别 分 隔 的 最 佳 属性 ， 然 后 对 分 隔 所 得 的 子 问 题 进行 递归 处 理 。 这 种 方 
法 产生 出 一 个 决策 树 ， 如 果 有 必要 可 以 将 它 转换 成 一 个 分 类 规则 集 ， 尽 管 要 从 决策 树 中 产生 
有 效 规则 ， 但 这 个 转换 过 程 并 不 简单 。 

另 一 个 方法 是 依次 取出 每 个 类 ， 寻 找 一 个 方法 使 之 能 覆盖 所 有 属于 这 个 类 别 的 实例 ， 同 
时 能 剔除 不 属于 这 个 类 别 的 实例 。 这 种 方法 称 为 覆盖 (covering) 方法 ， 因 为 在 每 一 个 阶段 都 
要 找 出 一 个 能 够 “覆盖 ”部 分 实例 的 规则 。 和 覆盖 法 的 自身 特性 决定 了 它 将 产生 一 个 规则 集 而 
不 是 一 个 决策 树 。 

可 以 在 二 维 的 实例 空间 上 观察 覆盖 法 ， 如 图 4-6a 所 示 。 首 先 产生 一 个 覆盖 ca 类 实例 的 规则 。 
作为 规则 中 的 第 一 个 测试 ， 如 中 间 图 所 示 那 样 ， 垂 直 分 割 属 性 空间 。 由 此 给 出 一 个 起 始 规则 : 

If x > 1.2 then class = a 

然而 ， 这 个 规则 同时 覆盖 了 很 多 a 类 和 2 类 的 实例 ， 所 以 在 规则 中 增加 一 个 新 的 测试 ， 如 
第 3 个 图 所 示 ， 在 水 平方 向 进一步 对 实例 空间 进行 分 割 。 

If x > 1.2 and y > 2.6 then class =a 

这 个 规则 覆盖 了 除了 一 个 a 类 实例 以 外 的 其 他 所 有 a 类 的 实例 。 也 许可 以 就 此 结束 ， 但 是 
如 果 感 觉 有 必要 覆盖 最 后 一 个 a 类 实例 ， 也 许 需要 添加 另 一 个 规则 : 

If x > 1.4 and y < 2.4 then class =a 

同样 的 过 程 可 以 产生 出 覆盖 pb 类 实例 的 2 个 规则 是 : 


If x < 1.2 then class = b 
If x > 1.2 and y < 2.6 then class = b 


同样 ， 有 一 个 a 类 实例 被 错误 地 包含 进来 。 如 果 有 必要 去 除 它 ， 就 必须 在 第 二 个 规则 中 增 
加 更 多 的 测试 ， 并 且 需 要 再 添加 额外 规则 来 覆盖 被 新 测试 排除 在 外 的 b 类 实例 。 


nh 
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b) 同样 问题 的 决策 树 
图 4-6 覆盖 算法 


4.4.1 规则 与 树 


对 于 同一 个 数据 ， 自 上 而 下 的 分 治 算法 ， 至 少 从 表面 上 看 ， 与 覆盖 算法 是 很 相似 的 。 它 
也 可 能 使 用 x 属性 对 数据 集 进行 首次 分 裂 ， 也 很 可 能 在 相同 的 位 置 x = 1.2 处 进行 分 裂 。 然 而 ， 
覆盖 算法 仅 考虑 覆盖 一 个 类 别 的 实例 ， 而 由 分 治 法 产生 的 分 裂 则 需要 同时 考虑 两 个 类 别 ， 
为 分 治 算法 是 建立 一 个 能 够 应 用 于 所 有 类 别 上 的 单一 的 概念 描述 。 第 二 次 分 裂 或 许 也 在 同样 
的 位 置 ,y=2.6， 从 而 产生 如 图 4-6b 所 示 的 决策 树 。 这 个 树 与 规则 集 完 全 对 应 ,在 这 个 例子 中 ， 
覆盖 法 和 分 治 算法 本 质 上 并 没有 什么 不 同 。 

但 是 在 许多 情况 下 ， 规 则 和 树 在 表达 的 清楚 明晰 上 存在 差异 。 例 如 ， 当 在 第 3.3 节 讨论 重 
复 子 树 问 题 时 ， 曾 经 提 到 规则 可 以 是 对 称 的 ， 而 树 必 须 首先 选择 一 个 属性 进行 分 裂 ; 这 会 导 
致 树 比 一 个 等 效 的 规则 集 大 得 多 。 另 一 个 不 同 之 处 是 ， 在 多 类 的 情况 下 ， 决 策 树 分 裂 将 考虑 
所 有 类 别 的 情况 ， 试 图 使 分 裂 的 纯度 最 大 化 ， 而 规则 建立 法 一 次 只 集中 处 理 一 个 类 别 ， 并 不 
考虑 其 他 类 别 上 发 生 的 情况 。 


4.4.2 一 个 简单 的 覆盖 算法 


覆盖 算法 向 正在 建设 中 的 规则 里 添加 测试 ， 总 是 要 尽力 创建 一 个 能 获得 最 大 正确 率 的 规 
则 。 相 反 ， 分 治 算法 是 向 正在 建设 中 的 树 上 添加 测试 ， 总 是 要 尽力 将 不 同类 别 最 大 程度 地 分 
开 。 这 两 种 方法 都 牵涉 到 要 寻找 某 个 属性 进行 分 裂 的 过 程 。 但 是 两 者 寻找 最 佳 属性 的 标准 是 
不 同 的。 分 治 算法 ， 如 ID3， 选 择 一 个 属性 能 使 信息 增益 最 大 化 ， 而 我 们 即将 讨论 的 覆盖 算法 
则 要 选择 一 个 属性 - 值 配对 (attribute-value pair) 能 使 期 望 类 别 概率 达到 最 大 化 。 
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图 4-7 展 示 了 一 个 实例 空间 ， 这 个 空间 包含 了 所 有 的 实例 、 一 个 部 分 创建 完成 的 规则 
(partially constructed rule )， 和 同样 的 规则 在 加 入 一 


个 新 条 件 后 的 情况 。 这 个 新 的 条 件 限制 了 规则 的 覆 样本 空间 

盖 量 ; 指导 思想 是 要 尽 可 能 多 地 包含 期 望 类 别 的 实 日 前 得 到 的 规则 
例 ， 同 时 尽量 不 包含 其 他 类 别 的 实例 。 假 设 新 的 规 B 
WU SEE KB, HD TEED TR Fix Te ears 
类 别 的 实例 ， 以 及 tp 个 其 他 类 别 的 实例 ， 即 规则 

所 产生 的 错误 。 然后， 选择 新 的 条 件 使 Pt 最 大 化 。 847 六 衣 筑 法 损 作 过 程 中 的 实 全 空间 


举 个 例子 来 帮助 理解 。 这 次 改 为 使 用 表 1-1 的 隐形 
眼镜 数据 。 依 次 生成 3 个 规则 ， 分 别 覆盖 3 个 类 别 (hard、soft 和 none) 中 的 每 一 个 。 首 先 寻 找 一 个 规则 : 


If ? then recommendation = hard 


对 于 未 知 条 件 “?”， 存 在 9 个 选择 : 


age = young 2/8 
age = pre-presbyopic 1/8 
age = presbyopic 1/8 
spectacle prescription = myope 3/12 
spectacle prescription = hypermetrope 1/12 
astigmatism = no 0/12 
astigmatism = yes 4/12 
tear production rate = reduced %12 
tear prođuction rate = normal 4/12 


右边 的 数值 表示 由 这 个 条 件 选 出 的 实例 集中 ,，“ 正 确 ” 实 例 的 比例 。 这 里 ,正确 (correct) 
意味 着 建议 (recommendation) 使 用 硬 的 (hard) 隐形 眼镜 。 例 如 ， 由 条 件 age=young 选 出 
8 个 实例 ， 其 中 2 个 建议 使 用 硬 的 隐形 眼镜 ， 所 以 第 一 个 比例 值 是 2/8。( 为 了 能 很 好 理解 ， 最 
好 看 一 下 表 1-1 的 隐形 眼镜 数据 ， 并 统计 表 中 的 记录 . ) 选择 最 大 一 个 比例 值 4112， 从 上 面 列表 
里 的 第 7 个 和 最 后 -- 个 之 间 任 意 选 一 个 ， 建 立 规则 : 


If astigmatism = yes then recommendation = hard 

这 个 规则 并 不 非常 准确 ， 只 从 它 所 覆盖 的 12 个 实例 中 得 到 4 个 正确 的 实例 ， 见 表 4-8。 
此 对 它 进行 进 -- 步 修正 : 

If astigmatism = yes and ? then recommendation = hard 


表 4-8 astigmatism = yes 的 部 分 隐形 眼镜 数据 














Oe 视力 诊断 wm x TARE aK 推荐 镜片 
young myope yes reduced none 
young myope yes normal hard 
young hypermetrope yes reduced none 
young hypermetrope yes normal hard 
pre-presbyopic myope yes reduced none 
pre-presbyopic myope yes normal hard 
pre-presbyopic hypermetrope yes reduced none 
pre-presbyopic hypermetrope yes normal none 
presbyopic myope yes reduced none 
presbyopic myope yes normal hard 
presbyopic hypermetrope yes reduced none 
presbyopic hypermetrope yes normal none 
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未 知 条 件 “?” 的 可 能 性 有 7 个 ， 产 生 7 个 选择 : 


age = young 2/4 
age = pre-presbyopic 1/4 
age = presbyopic 1/4 
spectacle prescription = myope 3/6 
spectacle prescription = hypermetrope 1/6 
tear production rate = reduced 0/6 
tear production rate = normal 4/6 


(再 次 统计 表 4-8 中 的 记录 .。) 很 清楚 ， 最 后 一 个 胜出 ，6 个 实例 中 有 4 个 正确 ， 相 应 的 规则 是 : 
If astigmatism = yes and tear production rate = normal 
then recommendation = hard 


可 以 就 此 停止 了 吗 ? 也 许 。 但 是 现在 我 们 要 找 出 丝毫 不 差 的 规则 ， 而 不 管 它们 有 多 人 么 复 


杂 。 表 4-9 所 列 的 是 到 目前 为 止 规则 所 能 覆盖 的 实例 。 那 么 下 一 个 可 能 的 条 件 是 : 
age = young 2/2 
age = pre-presbyopic 1/2 
age = presbyopic 1/2 
spectacle prescription = myope 3/3 
spectacle prescription = hypermetrope 1/3 


需要 在 第 1 和 第 4 之 间 选 择 一 个 。 到 目前 为 止 ， 都 是 将 分 数 当 作 数 值 来 处 理 ， 尽 管 这 两 个 分 数 
值 相 等 (都 为 1 ),， 但 是 它们 有 不 同 的 覆盖 量 : 一 个 选择 条 件 仅 覆 盖 2 个 正确 的 实例 ， 而 另 一 个 
覆盖 了 3 个 。 在 同等 条 件 下 ， 总 是 选择 拥有 更 大 种 盖 量 的 那个 规则 ， 所 以 最 终 的 规则 为 : 


If astigmatism = yes and tear production rate = normal 
and spectacle prescription = myope then recommendation = hard 


M4-9 astigmatism = yes 和 tear production rate = normal 的 部 分 隐形 眼镜 数据 


© R 视力 诊断 散光 Am 推荐 镜片 
young myope yes normal hard 
young hypermetrope yes normal hard 
pre-presbyopic myope yes normal hard 
pre-presbyopic hypermetrope yes normal none 
presbyopic myope yes normal hard 
presbyopic hypermetrope yes normal none 





这 确实 是 在 隐形 眼镜 问题 上 产生 的 规则 之 一 。 但 是 它 仅 包含 4 个 建议 使 用 硬 的 隐形 眼镜 情 
况 中 的 3 个 。 因此， 从 实例 集中 删除 这 3 个 实例 ， 并 且 重 新 开始 寻找 另 一 种 形式 的 规则 : 

If ? then recommendation = hard 

按照 同样 的 程序 ， 将 最 终 发 现 age=young 是 作为 第 一 个 条 件 的 最 佳 选择 。 这 个 条 件 的 覆 
盖 量 是 ?7，?7 是 因为 有 3 个 实例 已 经 从 原 有 的 实例 集中 被 删除 了 ， 总 共 还 剩 下 21 个 实例 。 第 2 个 
条 件 的 最 佳 选择 是 astigmatism=yes， 选 择 的 是 1/3 (实际 上 ， 还 存在 一 个 相同 的 比例 
值 ) ; tear production rate=normal 是 第 3 个 最 佳 选择 ， 选 择 的 是 1/1。 

If age = young and astigmatism = yes and 

tear production rate = normal then recommendation = hard 

这 个 规则 实际 上 有 覆盖 了 原始 数据 集中 的 3 个 实例 ， 其 中 的 2 个 已 经 被 前 面 建立 的 规则 覆盖 
了 一 一 但 这 也 没有 关系 ， 因 为 这 两 个 规则 给 出 的 建议 是 一 样 的 。 

现在 所 有 的 硬 的 隐形 眼镜 的 实例 都 已 经 覆盖 了 ， 下 一 步 是 用 相同 的 步骤 生成 软 的 隐形 眼 
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镜 的 规则 。 最 后 生成 bone 类 别 的 规则 。 除 非 所 寻找 的 规则 集 是 带 有 缺 省 规则 的 ， 如 果 是 这 种 
情形 ， 便 不 需要 给 最 后 的 类 别 寻 找 明 确 的 规则 了 。 
以 上 的 描述 是 用 PRISM 法 来 创建 规则 。 它 只 建立 正确 或 者 “完美 ”的 规则 。 它 利用 正确 
公式 p/t 来 衡量 规则 的 成 功率 。 任 何 低 于 100% 正 确 率 的 规则 都 是 “不 正确 "， 因 为 低 于 100% 
正确 率 的 规则 意味 着 将 实例 分 配 到 并 不 是 它 所 属 的 类 别 上 。PRISM 不 断 向 每 一 个 规则 增加 条 
件 ， 直 到 规则 达到 完美 : 规则 的 正确 率 是 100%。 图 4-8 给 出 了 这 个 算法 的 总 结 。 最 外 面 的 循 
环 在 各 个 类 上 重复 ， 依 次 为 每 个 类 别 产 生 规则 。 注 意 在 每 次 循环 开始 以 前 、 需 要 将 样本 集 重 
新 初始 化 到 完整 的 数据 集 状 态 。 然 后 为 那个 类 别 建立 规则 ， 并 从 数据 集中 删除 实例 ， 直 到 没 
有 这 个 类 别 的 实例 存在 为 止 。 每 当 开 始 创建 规则 时 ， 要 从 一 个 空 的 规则 开始 〈 空 规则 覆盖 了 
所 有 的 样本 )， 接 着 不 断 加 入 测试 来 限制 规则 ， 直 到 规则 仅 覆 盖 所 期 望 的 类 别 为 止 。 在 每 一 个 
阶段 ， 选 择 最 有 和 希望 的 测试 ， 就 是 使 规则 的 正确 率 达 到 最 大 化 的 一 个 测试 。 最 后 ， 选 择 拥有 
最 大 覆盖 量 的 测试 来 打破 平局 。 
对 于 每 个 类 别 C 
将 实例 集 初 始 化 为 E 
当 E 中 含有 类 别 C 的 实例 时 
创建 规则 R ， 规 则 左边 为 空 条 件 ， 预 测 类 别 为 C 
循环 工作 ， 直 到 R 完 美 (或 者 没有 属性 可 使 用 了 ) 
对 于 每 个 在 规则 R 中 还 未 包含 的 属性 A 和 属性 值 v 
考虑 添加 条 件 A = v 到 规则 R 的 左边 
选择 A 和 v、 使 正确 率 pt 最 大 化 
(选择 最 大 炸 盖 最 p 的 条 件 来 打破 平局 ) 
将 A=v 添 加 到 规则 R 中 
将 规则 R 所 敌 盖 的 实例 从 E 中 删除 


















图 4-8 一 个 基本 规则 学 习 法 的 伪 代 码 


4.4.3 规则 与 决策 列 


考虑 为 某 个 特定 的 类 别 产 生 的 规则 ， 也 就 是 将 图 4-8 所 示 算 法 中 的 最 外 层 循环 去 掉 。 从 规 
则 产生 的 过 程 似乎 可 以 很 清楚 地 看 到 ， 这 些 规则 打算 要 按照 先后 次 序 进行 解释 ， 就 像 是 一 个 
决策 列 ， 依 次 测试 规则 直到 找到 一 个 适用 的 规则 ， 然 后 使 用 它 。 这 是 因为 只 要 新 的 规则 建立 
完成 ， 由 新 规则 所 覆盖 的 实例 将 从 实例 集中 被 删除 (图 4-8 倒 数 第 3 行 代码 ): 因此 后 来 生成 的 
规则 是 为 那些 没有 被 这 个 规则 所 覆盖 的 实例 设计 的 。 然 而 ， 尽 管 表面 看 来 规则 应 该 依次 被 检 
验 ， 但 这 并 不 是 必需 的 。 考 虑 到 后 来 为 这 个 类 别 建立 的 规则 都 预测 出 同样 的 类 别 。 这 意味 着 
它们 以 什么 样 的 顺序 执行 是 没有 关系 的 : 如 果 能 够 找到 一 个 覆盖 这 个 实例 的 规则 ， 就 可 以 预 
测 出 这 个 实例 的 类 ; 或 者 找 不 到 这 样 的 一 个 规则 ， 也 就 不 可 能 预测 出 实例 的 类 。 

现在 回 到 完整 的 算法 上 。 依 次 考虑 每 一 个 类 ， 并 且 产 生出 能 够 将 属于 这 个 类 别 的 实例 从 
其 他 类 别 的 实例 中 识别 出 来 的 规则 。 为 某 个 类 别 所 建 的 规则 和 为 其 他 类 别 所 建 的 规则 之 间 没 
有 隐 含 的 顺序 关系 。 因 此 ， 产 生出 的 规则 能 够 以 独立 于 顺序 的 方式 执行 

正如 在 第 3.3 节 所 讨论 的 ， 顺 序 独立 (order-independent) 的 规则 似乎 以 各 自 独立 的 “ 知 
识 ” 金 块 的 行为 方式 、 使 规则 更 有 具有 模块 性 ， 但 同时 也 存在 劣势 ， 即 当 所 采用 的 规则 起 冲突 
时 ， 便 不 清楚 应 该 如 何 处 理 了 。 用 这 种 方法 产生 的 规则 ， 会 使 一 个 测试 样本 得 到 多 个 分 类 ， 
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即 它 能 够 适用 于 不 同类 别 上 的 规则 。 而 其 他 的 测试 样本 也 可 能 不 会 得 到 任何 分 类 。 处 理 这 种 
情况 的 一 个 简单 的 策略 是 在 模糊 事件 上 强制 执行 一 个 决策 ， 从 所 预 铀 出 的 类 别 中 选择 (〈 与 类 
别 对 应 的 ) 训练 实例 数量 最 多 的 那个 类 别 ， 或 者 如 果 没 有 预测 出 的 类 别 ， 那 么 选择 在 总 体 上 
拥有 最 多 训练 实例 的 类 别 。 这 种 问题 不 会 出 现在 决策 列 上 ， 因 为 决策 列 需 要 按 顺 序 解释 ， 并 
H 且 一 个 规则 适用 就 立刻 停 正解 释 过 程 : 最 后 的 一 个 缺 省 的 附加 规则 能 够 保证 任何 测试 实 
例 都 会 有 一 个 分 类 。 采 用 一 个 稍微 不 同 的 方法 ， 也 许 能 为 多 类 问题 产生 一 个 好 的 决策 列 。 在 
第 6.2 节 将 涉及 相关 内 容 。 

诸如 PRISM 之 类 的 算法 可 以 描述 为 割 治 算法 (separate-and-conquer): 寻找 一 条 能 够 覆盖 
许多 同类 实例 的 规则 (去 除 不 属于 此 类 的 实例 )， 将 这 些 已 经 被 覆盖 的 实例 从 实例 集中 减 除 ， 
因为 这 些 实例 已 经 被 规则 考虑 到 了 ， 然 后 继续 在 剩 下 的 实例 上 执行 这 个 过 程 。 这 种 方法 和 分 
治 决策 树 方法 是 很 妙 的 对 照 。 减 除 (实例 ) 的 步骤 大 大 提高 了 算法 的 效率 ， 因 为 实例 集 的 规 
模 在 操作 过 程 中 不 断 地 缩减 。 


4.5 挖掘 关 联 规则 


关联 规则 (association rules) 与 分 类 规则 相近 似 ， 可 以 采用 同样 的 方法 找 出 关联 规则 ， 
方法 是 对 每 个 可 能 出 现在 规则 右边 的 表达 式 ， 执 行 一 个 分 治 的 规则 归纳 过 程 。 不 但 任何 属性 
都 可 以 伴随 着 任何 可 能 的 属性 值 出 现在 右边 ， 而 且 一 个 单独 的 关联 规则 经 常 能 够 预测 出 不 止 
-个 属性 的 值 。 要 找 出 这 些 规则 ， 必 须 对 在 右边 的 每 一 种 可 能 的 属性 组 合 (combination of 
attributes )， 用 每 种 可 能 的 属性 值 的 组 合 ， 执 行 一 次 规则 归纳 过 程 。 从 中 将 产生 出 数量 庞大 的 
关联 规则 ， 因 此 必须 根据 它们 的 覆盖 量 (应 用 规则 预测 正确 的 实例 数量 ) 和 正确 率 (同样 的 
数值 但 表示 为 它 在 规则 应 用 所 涉 的 全 部 实例 中 占据 的 比例 ) 对 其 进行 修剪 。 但 是 这 种 方法 非 
常 不 可 行 。( 注 意 ， 正 如 第 3.4 节 所 述 ， 和 覆盖 量 经 常 称 为 支持 (support)， 正 确 率 (accuracy) 
也 经 常 称 为 置信 和 度 (confidence), ) 

这 里 需要 说 明 ， 我 们 仅 对 拥有 高 覆盖 量 的 关联 规则 感 兴趣 。 暂 时 忽略 一 个 规则 左右 两 边 
的 不 同 ， 只 寻找 能 够 达到 预定 最 小 覆盖 量 的 属性 - 值 配对 的 组 合 。 它 们 (这 些 组 合 ) 称 为 项 集 
(item set): 一 个 属性 - 值 配对 就 是 一 个 项 (item)。 这 个 术语 出 自 购物 篮 分 析 ， 项 是 购物 车 里 
的 商品 ， 超 市 经 理 需 要 寻找 购物 艇 里 物品 之 间 的 关联 。 


4.5.1 项 集 


表 4-10 的 第 1 列 列 出 了 表 1-2 天 气 数据 的 单独 项 ， 并 在 右边 给 出 这 个 项 在 数据 集 上 出 现 的 次 
数 。 它 们 是 单项 集 。 下 一 步 要 建立 二 项 集 ， 方 法 是 将 单独 项 进行 配对 。 当 然 ， 没 有 理由 要 建 
Z “个 包含 两 个 相同 属性 ， 但 是 不 同属 性 值 的 二 项 集 (如 阴 晴 = sunny 和 阴 睛 = overcast)， 因 
为 它 不 可 能 出 现在 任何 一 个 真正 的 实例 上 。 

假设 要 寻找 最 小 覆盖 量 为 2 的 关联 规则 ， 就 要 去 除 那些 覆盖 实例 的 个 数 小 于 2 的 项 集 。 因 此 
将 剩 下 47 个 一 项 集 ， 表 4-10 的 第 2 列 显示 了 其 中 的 部 分 二 项 集 以 及 二 项 集 在 数据 集中 出 现 的 次 数 。 
接 下 来 要 建立 三 项 集 ,将 有 39 个 三 项 集 的 覆盖 量 为 2 或 大 于 2。 在 这 个 数据 集 上 ， 存 在 6 个 四 项 集 ， 
没有 五 项 集 ， 一 个 覆盖 量 是 2 或 大 于 2 的 五 项 集 只 可 能 与 一 个 重复 的 实例 相对 应 。 例 如 ， 表 中 的 
前 两 行 显示 阴 晴 = sunny 有 5 天 ， 其 中 温度 = hot 有 2 天 。 实 际 上 ， 这 两 天 又 都 是 温度 =high 和 玩 =no。 


tw 
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#410 覆盖 量 等 于 2 或 大 于 2 的 天 气 数据 的 项 集 


单项 集 


outlook=sunny (5) 


outlook=overcast (4) 


outlook=rainy (5) 


temperature = cool (4) 


temperature = mild (6) 


temperature = hot (4) 


humidity = normal (7) 


humidity = high (7) 


windy = true (6) 


windy = false (8) 


play = yes (9) 


play = no (5) 








-项 集 


outlook = sunny 
temperature =hot (2) 


outlook = sunny 


temperature = hot (2) 


outlook = sunny 


humidity = normal (2) 


outlook = sunny 
humidity = high (3) 


outlook = sunny 
windy = true (2) 


outlook = sunny 


windy = false (3) 


outlook = sunny 


play = yes (2) 


outlook = sunny 


play = no (3) 


outlook = overcast 


temperature = hot (2) 


outlook = overcast 
humidity = normal (2) 


outlook = overcast 
humidity = high (2) 


outlook = overcast 


windy = true (2) 


outlook = overcast 


windy = false (2) 


二 项 集 


outlook = sunny 
temperature = hot 
humidity = high (2) 


outlook = sunny 
temperature = hot 


play = no (2) 


outlook = sunny 
humidity = normal 


play = yes (2) 


outlook = sunny 
humidity = high 
windy = false (2) 


outlook = sunny 
humidity = high 
play = no (3) 


outlook = sunny 
windy = false 
play = no (2) 


outlook = overcast 
temperature = hot 
windy = false (2) 
outlook = overcast 
temperature = hot 
play = yes (2) 
outlook = overcast 
humidity = normal 
play = yes (2) 
outlook = overcast 
humidity = high 
play = yes (2) 
outlook = overcast 
windy = true 

play = yes (2) 
outlook = overcast 
windy = false 

play = yes (2) 
outlook = rainy 
temperature = cool 


humidity = normal (2) 





四 项 集 


outlook = sunny 
temperature = hot 
humidity = high 
play = no (2) 
outlook = sunny 
humidity = high 
windy = false 

play = no (2) 
outlook = overcast 
temperature = hot 
windy = false 

play = yes (2) 
outlook = rainy 
temperature = mild 
windy = false 

play = yes (2) 
outlook = rainy 
humidity = normal 
windy = false 
play = yes (2) 
temperature = cool 
humidity = normal 
windy = false 


play=yes (2) 
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( 8%) 
MGR :项 集 :项 集 四 项 集 
38 humidity = normal humidity = normal 
windy = false (4) windy = false 
play = yes (4) 
39 humidity = normal humidity = high 
play = yes (6) windy = false 
play = no (2) 
40 humidity = high 


windy = true (3) 


47 windy = false 


play = no (2) 





4.5.2 关联 规则 

下 面 将 讨论 如 何 有 效 地 建立 项 集 ， 但 是 需要 首先 介绍 如 何 将 项 集 转换 成 规则 。- - 且 拥 有 
规定 履 盖 好 的 项 集 建立 完毕 ， 紧 接着 就 要 分 别 将 项 集 转换 成 至 少 拥有 指定 最 小 正确 率 的 规则 
或 者 是 规则 集 。 有 一些 项 集 将 会 产生 多 个 规则 ， 而 其 他 的 一 些 项 集 也 许 根 本 产生 不 出 任何 规 
则 。 例 如 ， 个 覆盖 量 是 4 的 三 项 集 ( 表 4-10 第 38 行 ) 

humidity = normal, windy = false, play = yes 


TURE NR A AUE 


If humidity = normal and windy = false then play = yes 4/4 
If humidity = normal and play = yes then windy = false 4/6 
If windy = false and play = yes then humidity = normai 4/6 
If humidity = normal then windy = false and play = yes 4/7 
If windy = false then humidity = normal and play = yes 4/8 
If play = yes then humidity = normal and windy = false 4/9 


If - then humidity = normal and windy = false and play = yes 4/12 
右边 的 数值 是 所 有 3 个 条 件 都 满足 时 的 实例 数量 ， 即 覆盖 量 除 以 先决 条 件 满足 时 的 实例 数量 。 
用 分 数 形式 表示 规则 正确 时 所 对 应 的 实例 百分率 ， 也 就 是 规则 的 正确 率 。 假 设 指定 的 最 小 正 
确 率 为 100% 、 那 么 只 能 把 第 1 个 规则 纳入 最 后 的 规则 集 。 从 表 4-10 中 寻找 先决 条 件 表达 式 可 
以 获得 分 数 的 分 母 〈 尽 管 部 分 未 在 表 中 列 出 )。 上 面 的 最 后 一 条 规则 不 存在 先决 条 件 ， 它 的 分 
BEE BOR EP EAA BR. 

表 4-11 是 天 气 数据 的 最 终 规则 集 ， 规 则 集 的 最 小 覆盖 量 是 2， 最 小 正确 率 是 100% ， 以 覆盖 
量 排 序 。 共 有 58 条 规则 ， 其 中 3 条 规则 的 覆盖 量 是 4，5 条 规则 的 覆盖 量 是 3，50 条 的 覆盖 量 为 2。 
只 有 7 条 规则 的 结论 含 两 个 条 件 ， 没 有 一 条 规则 的 结论 是 含 两 个 以 上 条 件 的 。 第 -一 条 规则 从 上 
而 讨论 的 项 集中 得 到 的 。 有 时 间 一 个 项 集 里 会 产生 出 儿 条 规则 。 例 如 ， 规 则 9、10 和 11 是 从 表 
4-10 第 6 行 的 四 项 集 上 产生 的 : 

temperature = cool, humidity = normal, windy = false, play = yes 

它 的 覆盖 量 是 2。 这 个 四 项 集 的 3 个 子 集 拥有 的 覆盖 量 也 是 2: 

temperature = cool, windy = false 


temperature = cool, humidity = normal, windy = false 
temperature = cool, windy = false, play = yes 
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因此 它们 产生 出 规则 9、10 和 11， 这 3 条 规则 都 拥有 100% 的 正确 率 (在 训练 数据 集 上 )。 
表 4-11 天 气 数据 的 关联 规则 





关联 规则 








Do 下 


30 


3] 


58 


eet at ta Pye 


humidity = normal windy = false 
temperature = cool 

outlook = overcast 

temperature = cool play = yes 
outlook = rainy windy = false 
outlook = rainy play = yes 
outlook = sunny humidity = high 
outlook = sunny play = no 


temperature = cool windy = false 


temperature = cool humidity = normal windy 
= false 

temperature = cool windy = false play = yes 
outlook = rainy humidity = normal windy 

= false 

outlook = rainy humidity = normal play = yes 
outlook = rainy temperature = mild windy 

= false 

outlook = rainy temperature = mild play = yes 
temperature = mild windy = false play = yes 
outlook = overcast temperature = hot 


outlook = overcast windy = false 
temperature = hot play = yes 


outlook = overcast temperature = hot windy 
= false 

outlook = overcast temperature = hot play 
= yes 

outlook = overcast windy = false play = yes 
temperature = hot windy = false play = yes 
windy = false play = no 


outlook = sunny humidity = high windy = false 
outlook = sunny windy = false play = no 
humidity = high windy = false play = no 


outlook = sunny temperature = hot 
temperature = hot play = no 

outlook = sunny temperature = hot humidity 
= high 


outlook = sunny temperature = hot play = no 


outlook = sunny temperature = hot 


ra 
> play = yes 4 
=> humidity = normal 4 
=> play = yes 4 
之 humidity = normal 3 
> play = yes 3 
> windy = false 3 
> play = no 3 
> humidity = high 3 
=> humidity = normal 2 
play = yes 
=> play = yes 2 
=> humidity = normal 2 
=> play = yes 2 
> windy = false 2 
> play = yes 2 
> windy = false 2 
=> outlook = rainy 2 
> windy = false 2 
play = yes 
> temperature = hot 2 
play = yes 
=> outlook = overcast 2 
windy = false 
=> play = yes 2 
> windy = false 2 
temperature = hot 2 
=> outlook = overcast 2 
> outlook = sunny 2 
humidity = high 
=> play = no 2 
=> humidity = high 2 
=> outlook = sunny 2 
> humidity = high 2 
play = no 
> outlook = sunny 2 
humidity = high 
=> play = no 2 
= humidity = high 2 
> humidity = high 2 


目 确 率 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 


100% 


100% 
100% 


100% 
100% 


100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 
100% 


100% 


100% 
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4.5.3 有 效 地 建立 规则 


现在 来 详细 考虑 一 个 使 产生 的 关联 规则 达到 指定 的 最 小 覆盖 量 和 正确 率 的 算法 。 这 个 算 
法 分 两 个 阶段 :首先 产生 达到 指定 最 小 覆盖 量 的 项 集 ， 然 后 从 每 一 个 项 集中 找 出 能 够 达到 指 
定 最 小 正确 率 的 规则 。 

第 一 步 是 产生 所 有 能 达到 给 定 最 小 覆盖 量 的 单项 集 (如 表 4-10 第 1 列 )， 然 后 使 用 单项 集 
产生 二 项 集 (第 2 列 )、 三 项 集 (第 3 列 ) ， 等 等 。 每 一 步 操作 都 要 对 整个 数据 集 访问 一 遍 ， 统 
计 每 种 项 集 的 数量 ， 访 问 结束 后 将 合格 的 项 集 保存 在 一 个 散 列表 一 一 一 种 标准 的 数据 结构 中 ， 
散 列表 中 的 各 个 元 素 能 够 被 迅速 找 出 。 从 单项 集中 产生 出 二 项 集 的 候选 成 员 ， 然 后 再 对 数据 
集 访问 一 遍 ， 统 计 每 个 二 项 集 的 覆盖 量 ; 最 终 将 那些 小 于 最 小 覆盖 量 的 二 项 集成 员 从 散 列表 
中 删除 。 二 项 集成 员 只 是 将 单项 集成 员 成 对 取出 的 所 有 组 合 ， 因 为 只 有 构成 一 个 二 项 集 的 两 
个 单项 集 都 达到 最 小 覆盖 量 时 ， 这 个 二 项 集 才 有 可 能 达到 最 小 覆盖 量 。 这 点 具有 通用 性 : 如 
果 三 项 集中 的 3 个 二 项 集 都 达到 最 小 覆盖 量 ， 那 么 这 个 三 项 集 才 有 可 能 达到 最 小 覆盖 量 。 对 四 
项 集 也 是 如 此 。 

举 一 个 例子 来 解释 如 何 产生 项 集 的 成 员 。 假 设 有 5 个 三 项 集 : (ABC), (ABD), (AC 
D), (ACE) 和 (BCD), 这 里 A 是 一 个 属性 ， 如 阴 晴 = sunny。 那 么 将 前 两 个 成 员 合 并 ， 即 
得 到 (A B CD)， 是 一 个 四 项 集 的 成 员 ， 因 为 它 的 其 他 三 项 子 集 (ACD) 和 (BCD) WH 
盖 量 都 大 于 最 小 覆盖 量 。 如 果 三 项 集 是 按 字母 进行 排序 的 ， 就 像 这 个 例子 所 示 的 序列 ， 那 么 
仅 需要 考虑 对 前 两 个 成 员 相同 的 三 项 集 配对 。 例 如 ， 我 们 不 考虑 (ACD) 和 (BCD), 
为 (ABCD) 也 可 以 从 (ABC) 和 (A B D) 中 产生 ， 并 且 ， 如 果 它 们 两 个 不 是 三 项 集 的 
RE, BA (ABCD) 就 不 可 能 成 为 四 项 集 的 成 员 。 所 以 ， 只 能 产生 两 对 三 项 集 的 组 合 : 一 
对 是 已 经 讨论 过 的 (A BC) 和 (ABD), 另 一 对 是 (ACD) 和 (ACE). 第 二 对 产生 一 个 
四 项 集 (A C D E)， 由 于 它 的 三 项 集 没 有 侈 部 达到 最 小 覆盖 量 ， 所 以 它 将 被 玉 弃 。 散 列表 能 
够 帮助 做 这 种 检查 : 只 要 依次 将 (四) 项 集中 的 各 项 移出 ， 并 检查 剩余 的 三 项 集 是 否 真 正 出 
现在 散 列表 中 。 在 这 个 例子 中 ， 只 存在 一 个 四 项 集 候选 成 员 (A B C D)。 这 个 四 项 集 是 否 真 
正 拥有 最 小 覆盖 量 ， 只 能 通过 对 数据 集中 的 实例 进行 检查 才能 确认 。 

第 二 个 处 理 阶段 是 取出 每 一 个 项 集 ， 从 中 产生 出 规则 ， 并 检查 产生 的 规则 是 否 拥有 指定 
的 最 小 正确 率 。 如 果 规 则 的 右边 只 有 一 个 测试 ， 任 务 将 变 得 简单 ， 只 要 依次 将 每 个 条 件 作为 
规则 的 结论 来 考虑 ， 从 项 集中 删除 它 ， 用 完整 项 集 的 覆盖 量 除 以 结果 子 集 的 覆盖 量 (从 散 列 
表 中 获得 ) 得 到 对 应 于 规则 的 正确 率 。 我 们 同样 对 结论 中 包含 多 个 测试 的 关联 规则 感 兴趣 ， 
将 项 集 的 每 种 子 集 放 在 右边 ， 而 将 剩余 的 项 作为 前 提 条 件 放 在 左边 ， 似 乎 必须 对 这 些 结果 进 
行 评估 。 

除非 项 集 的 规模 较 小 ， 否 则 这 种 穷 举 法 将 使 得 计算 强度 过 于 密集 ， 因 为 可 能 子 集 的 数量 
会 随 着 项 集 的 规模 成 指数 级 增长 。 然 而 ， 还 有 一 种 更 好 的 方法 。 观 察 在 第 3.4 节 论述 关联 规则 
时 的 一 条 规则 : 


If windy = false and play = no then outlook = sunny 
and humidity = high 


如 果 这 个 双重 结论 (double-consequent) 规则 满足 给 定 的 最 小 覆盖 量 和 正确 率 ， 那 么 从 
同样 的 项 集中 产生 的 两 个 单个 结论 (single-consequent) 的 规则 也 一 定 满足 最 小 覆盖 量 和 正 
确 率 : 
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humidity = high and windy = false and play = no 
then outlook = sunny 
If outlook = sunny and windy = false and play = no 
then humidity = high 


反 过 来 ， 如 果 其 中 某 个 单个 结论 的 规则 不 能 满足 最 小 覆盖 量 和 正确 率 ， 那 么 就 没有 必要 考虑 
双重 规则 了 。 这 给 出 了 一 个 从 单个 结论 规则 建立 双重 结论 的 候选 规则 的 方法 ， 此 法 同样 也 适 
用 于 从 双重 结论 规则 中 建立 三 重 结论 候选 规则 ， 依 此 类 推 。 当 然 ， 必 须 由 散 列 表 检 查 每 一 个 
候选 规则 ， 观 察 它 们 的 正确 率 是 否 真正 大 于 指定 的 最 小 正确 率 。 通 常 由 这 种 方法 检查 的 规则 
数 要 远 远 小 于 穷 举 法 。 有 趣 的 是 从 含 " 个 结论 的 规则 中 产生 出 含 (a+1) 个 结论 的 候选 规则 的 方 
法 与 前 面 讲述 的 从 a 项 集中 产生 出 (n+1) 项 集 的 候选 项 集 是 完全 一 样 的 方法 。 


H 
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4.5.4 讨论 


通常 需要 在 大 型 数据 集中 寻找 关联 规则 ， 所 以 高 效率 的 算法 具有 很 高 的 应 用 价值 。 以 上 
描述 的 算法 对 于 每 种 不 同 规模 的 项 集 都 要 在 数据 集 上 访问 一 遍 。 有 时 候 ， 由 于 数据 集 太 大 而 
不 能 全 部 读 入 主 内 存 ， 必 须 存储 在 硬盘 上 ， 因 此 值得 考虑 在 -次 访问 操作 中 同时 检查 两 个 相 
邻 规 模 的 项 集 ， 以 减少 访问 整个 数据 集 的 次 数 。 例 如 ， 一 旦 二 项 集 产生 ， 在 用 实例 集 统计 集 
合 中 真正 存在 的 二 项 集 数量 之 前 ， 可 以 先 从 二 项 集中 生成 所 有 的 三 项 集 。 尽 管 这 种 方法 考虑 
的 三 项 集 的 数量 大 于 真正 三 项 集 的 数量 ， 但 是 访问 整个 数据 集 的 次 数 将 减少 。 

实际 上 ， 建 立 关 联 规则 所 需 的 计算 量 取决 于 指定 的 最 小 覆盖 量 。 正 确 率 的 影响 力 较 小 ， 
因为 它 并 不 会 影响 到 访问 整个 数据 集 的 次 数 。 在 很 多 情况 下 ， 需 要 在 一 个 预定 的 最 小 正确 率 
的 标准 上 ， 选 用 一定 数量 ， 比 如 说 50 个 能 够 达到 最 大 可 能 覆盖 量 的 规则 。 一 种 方法 是 从 一 个 
较 高 的 覆盖 量 开 始 ， 然 后 逐渐 降低 ， 对 于 每 一 个 覆盖 量 ， 重 复 执行 整个 寻找 规则 的 算法 ， 直 
到 达到 所 要 求 的 规则 数量 为 止 。 

本 书 采用 的 表格 输入 格式 ， 特 别 是 基于 这 种 格式 的 标准 ARFF 文 件 ， 在 处 理 很 多 关联 规则 
问题 时 效率 很 低 。 关 联 规则 通常 使 用 在 属性 具有 二 值 (binary) 特 性 时 ， 也 就 是 存在 或 不 存在 ， 
并 且 ， 一 个 给 定 实例 的 大 部 分 属性 值 不 存在 。 这 是 在 第 2.4 节 讲述 的 一 种 稀疏 数据 的 表达 形式 ， 
相同 的 算法 可 以 用 于 这 类 数据 来 寻找 关联 规则 。 


4.6 线性 模型 


我 们 所 讨论 过 的 决策 树 和 规则 在 名 词性 属性 上 运作 得 非常 自然 ， 也 可 以 扩展 到 数值 属性 
上 。 把 数值 测试 直接 运用 到 决策 树 或 规则 归纳 方法 上 ， 或 者 将 数值 属性 事先 离散 成 名 词性 属 
性 的 形式 。 在 第 6 章 和 第 7 章 将 分 别 介绍 如 何 做 。 然 而 ， 有 一 些 方法 可 以 很 自然 地 运用 于 数值 
属性 。 首 先 看 几 个 简单 的 方案 ， 这 些 方案 是 更 加 复杂 的 机 器 学 习 方法 的 基础 ， 那 些 复杂 的 学 
习 方 法 将 在 以 后 讨论 。 


4.6.1 数值 预测 : 线性 回归 


当 结论 或 者 类 是 数值 ， 并 且 所 有 的 属性 值 都 是 数值 时 ， 线 性 回归 法 是 一 种 自然 会 考虑 的 
技术 。 线 性 回归 是 统计 学 的 一 种 常用 方法 。 它 的 主导 思想 是 利用 预定 的 权 值 将 属性 进行 线性 
组 合 来 表示 类 别 : 


X=W, 十 WIG +w,4, +--+ wa 
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这 里 x 是 类 ， Ais, Az, "5 a 是 属性 值 ， Wor Wyo tUg wi ERIE. 
| 权 值 是 从 训练 数据 中 计算 出 来 的 。 这 里 的 标记 比较 多 ， 因 为 需要 一 种 能 表达 每 个 训练 实 
| 例 的 属性 值 的 方法 。 第 一 个 实例 将 有 一 个 类 ，x， 和 属性 值 co, at, a ， 上 标 表 示 是 第 
| 一 个 实例 。 此 外 ， 为 了 标注 的 方便 ， 再 假设 一 个 额外 属性 co， 它 的 值 总 是 为 1。 
| 对 第 一 个 实例 的 类 的 预测 值 可 以 写成 如 下 形式 : 


Wy ay twa, + wa +- tinal = So 
| 
| 这 是 第 一 个 实例 类 值 的 预测 值 ， 而 不 是 真实 值 。 我 们 感 兴趣 的 是 预测 值 和 真实 值 的 差异 。 线 性 
回归 法 是 选择 总 共 k+1 个 系数 w, 使 所 有 训练 实例 上 的 预测 值 和 真实 值 的 差 值 的 平方 之 和 达到 最 
小 。 假 设 有 2 个 训练 实例 ， 第 ;个 实例 的 上 标 是 (D)。 那 么 预测 值 和 真实 值 的 差 值 的 平方 之 和 为 : 


n k 2 
(i) i) 

》 x 一 》 Wd; 

i=l j=0 


| 括号 里 的 表达 式 是 第 i 个 实例 的 真实 类 值 和 它 的 预测 类 值 之 差 。 这 个 平方 和 正 是 我 们 要 通过 选 
| 择 适 当 的 系数 来 达到 最 小 化 。 

乍 一 看 ， 这 个 公式 有 点 复杂 。 但 是 ， 如 果 你 有 相关 的 数学 基础 ， 最 小 化 技术 便 是 直 截 了 
| 当 的 。 如 果 给 予 的 实例 数量 足够 ， 简 单 地 说 ， 就 是 样本 的 数量 要 多 于 属性 的 数量 ， 那 么 选择 
| 适合 的 权 值 使 得 差 值 的 平方 和 达到 最 小 并 不 难 。 尽 管 这 个 过 程 确实 包含 一 个 矩阵 倒置 的 操作 ， 
| 但 是 有 关 的 软件 包 已 经 开发 出 来 ， 可 以 直接 拿 来 使 用 。 

一 旦 完成 了 数学 计算 ,将 得 到 一 个 基于 训练 数据 的 数值 型 的 权 值 集合 ， 可 以 用 来 预测 新 
实例 的 类 值 。 前 面 已 经 看 过 这 样 的 例子 ， 当 查看 CPU 性 能 数据 时 ， 图 3-7a 给 出 了 实际 的 数值 
型 的 权 值 。 这 个 公式 可 用 来 对 新 的 测试 实例 ， 进 行 CPU 性 能 预测 。 

线性 回归 是 一 个 出 色 的 、 简 单 的 适用 于 数值 预测 的 方法 ， 在 统计 应 用 领域 广泛 使 用 了 数 
十 年 。 当 然 ， 线 性 模型 也 存在 缺陷 。 如 果 数 据 呈现 出 非 线 性 关系 ， 线 性 回归 将 会 找到 一 条 最 
适合 的 直线 ,“ 最 适合 ”是 指 最 小 均 方差 (least mean squared difference), 这 条 线 也 许 并 不 十 
分 适合 。 然而， 线性 模型 可 以 作为 其 他 更 为 复杂 的 学 习 方 法 的 基础 。 


4.6.2 线性 分 类 : Logistic 回 归 


线性 回归 法 可 以 方便 地 应 用 于 含有 数值 属性 的 分 类 问题 。 事 实 上 任何 回归 技术 ， 无 论 是 
线性 的 还 是 非 线性 的 ， 都 可 以 用 来 分 类 。 技 巧 是 对 每 一 个 类 执行 一 个 回归 ， 使 属于 该 类 的 训 
练 实例 的 输出 结果 为 1 ， 而 不 属于 该 类 的 输出 结果 为 0。 结 果 得 到 该 类 的 一 个 线性 表达 式 。 然 
后 ， 对 于 一 个 给 定 的 未 知 类 的 测试 实例 ， 计 算 每 个 线性 表达 式 的 值 并 选择 其 中 最 大 的 。 这 种 
方法 有 时 称 为 多 反馈 线性 回归 (multiresponse linear regression). 

一 种 查看 多 反馈 线性 回归 的 方法 是 将 线性 表达 式 想像 成 与 每 个 类 对 应 的 数值 型 的 从 属 关 
系 函 数 (membership function )。 对 于 属于 这 个 类 别 的 实例 ， 从 属 关系 函数 值 为 1， 对 于 其 他 
类 别 的 实例 ， 函 数值 为 0。 的 新 实例 ， 计算 新 实例 与 各 个 类 别 的 从 属 关系 ， 从 中 
选择 (从属 关系 ) 最 大 的 一 

在 实际 应 用 中 ， 多 反馈 线性 回归 首肯 能 E 产 生 很 好 的 结果 。 但 是 ， 也 存在 两 个 缺陷 。 第 
从 属 关系 函数 产生 的 不 是 概率 值 ， 因 为 从 属 关 系 值 有 可 能 落 在 0 到 1 的 范围 以 外 。 第 二 ， 最 小 
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平方 回归 假设 误差 不 但 是 统计 上 的 独立 ， 而 且 是 呈现 出 具有 相同 标准 差 的 正 态 分 布 ， 当 多 反 
馈线 性 回归 用 于 分 类 问题 时 ， 明 显 地 违背 了 这 个 假设 ， 因 为 这 时 观察 值 仅 呈现 0 和 1。 

一 个 相关 的 、 称 为 logistic 回 归 (logistic regression) 的 统计 技术 不 存在 这 个 问题 。 直 接 副 
近 0 和 1 的 方法 会 在 超越 目标 时 ， 出 现 非法 的 概率 值 ， 而 logistic 回 归 是 在 一 个 经 转换 的 目标 变 
量 上 建立 一 个 线性 模型 。 

首先 假设 只 有 两 个 类 的 情况 。logistic 回 归 将 原始 目标 变量 : 

Prlllal, a,, .…,， a] 
这 个 无 法 用 线性 困 数 来 正确 地 近似 表达 的 变量 ， 替 换 为 : 


log(Pr[1l a, a,, =, a,V—-Pr[lla,, a, «+, a,)) 


结果 值 将 不 再 局 限于 0 到 1 的 区 间 ， 而 是 负 无 穷 大 和 正 无 穷 大 之 间 的 任何 值 。 图 4-9a 是 转换 函 ， 


数 图 ， 常 称 为 对 数 变换 (logit transformation). 
转换 后 的 变量 使 用 一 个 线性 函数 来 近似 ， 就 像 是 由 线性 回归 法 所 建立 的 函数 。 结 果 模 型 是 : 


Pr[lia,, az, > a ]=1/⁄(1+exp( -wọ~ wia- = — w, a)) 


这 里 权 值 为 v。 图 4-9b 展 示 了 这 个 函数 在 一 维 数据 空间 上 的 一 个 例子 ， 带 有 两 个 权 值 分 别 为 w。 ， 


= 0.5 和 w, = 1。 
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和 线性 回归 一样， 需要 找 出 能 与 训练 数据 匹配 得 较 好 的 权 值 。 线 性 回归 使 用 平方 误差 来 


测量 匹配 的 良好 程度 。 在 logistic 回 归 里 ， 则 使 用 模型 的 对 数 似 然 (log-likelihood)。 这 便 是 : 


G) aCi) 


Y= x!" log-—Prllla®, a, aj?) +x log(Prl | ay”, a9, aP D 
i=] 


ORF 1 


应 该 选择 能 够 使 对 数 似 然 最 大 化 的 权 值 w。 解 决 最 大 化 问题 的 方法 有 几 种 。 其 中 一 种 简 
单 的 方法 是 选 代 地 解决 一 系列 加 权 最 小 平方 回归 问题 ， 直 到 对 数 似 然 收敛 于 一 个 最 大 值 处 ， 
通常 在 经 过 几 次 的 和 迭代 过 程 即 可 。 

将 logistic 回 归 推 广 到 多 类 问题 ， 一 个 可 能 的 方法 是 如 前 面 多 反馈 线性 回归 里 讲述 的 ， 为 
每 个 类 别 独立 地 形成 logistic 回归 (模型)。 不 幸 的 是 ， 所 得 到 的 概率 值 之 和 不 为 1!。 为 了 获得 
适当 的 概率 ， 有 必要 将 用 于 每 个 类 别 的 各 体 模 型 结合 起 来 。 这 样 将 产生 出 一 个 联合 优化 问题 ， 
已 经 有 一 些 解决 方案 能 有 效 地 处 理 这 个 问题 。 

一 个 概念 更 简单 ， 并 且 非 常 通用 的 解决 多 类 问题 的 方法 是 成 对 分 类 (pairwise 
classification ) 。 为 每 一 对 类 别 建立 一 个 分 类 器 ， 仅 使 用 属于 这 两 个 类 别 的 实例 。 在 一 个 未 知 
测试 实例 上 的 结论 是 看 测试 实例 在 哪个 类 上 能 得 到 最 多 的 投票 。 从 分 类 误差 来 看 ， 这 种 方案 
通常 能 产生 正确 的 结论 。 它 也 能 够 通过 应 用 一 个 称 为 成 对 合并 (pairwise coupling) 的 方法 产 
生 概 率 估计 ， 这 种 方法 可 以 校正 从 不 同 分 类 器 上 产生 的 各 自 的 概率 估计 。 

如 条 有 K 个 类 ， 成 对 分 类 法 总 共 建 立 KK - 1)/2 个 分 类 器 。 尽 管 看 起 来 这 个 计算 强度 是 不 必 
要 的 ， 但 是 实际 上 ， 如 果 类 分 布 均衡 ， 那 么 成 对 分 类 法 的 处 理 速度 至 少 和 其 他 处 理 多 类 的 方 
法 一 样 快 。 原 因 是 每 一 个 成 对 的 学 习 问 题 只 考虑 属于 这 两 个 类 的 实例 。 如 果 将 n 个 实例 平分 到 
k 个 类 上 ， 分 到 每 个 成 对 的 学 习 问 题 上 的 实例 数量 为 2n/k。 假 如 一 个 有 n 个 实例 的 二 类 问题 ， 机 
器 学 习 算 法 需要 花费 与 4 秒 成 比例 的 时 间 去 执行 。 那 么 成 对 分 类 法 则 需要 与 K(k 一 1)/2 x 2n/k 黎 
成 比例 的 时 间 ， 也 就 是 与 (& - Dn 秒 成 正比 。 换 句 话说 ， 这 种 方法 与 类 别 数 量 呈 线性 关系 。 如 
果 学 习 算 法 需要 花费 更 多 时 间 ， 如 与 天 成 比例 ， 那 么 成 对 分 类 法 的 优势 就 会 更 加 明显 。 

线性 函数 处 理 分 类 问题 的 使 用 方法 能 够 很 容易 地 在 实例 空间 上 进行 察看 。 二 类 问题 的 
logistic 回 归 决 策 边 界 是 在 预测 概率 为 0.5 处 : 

Pr[lla,, a,,---,a,]=1/(1+exp(—w, — w,a, —— wd))=0.5 
它 发 生 在 
~w wa e wa= 0 
时 。 由 于 这 是 关于 属性 值 的 线性 等 式 ， 所 以 边界 是 一 个 在 实例 空间 上 的 线性 平面 ， 或 称 超 平 
面 (hyperplane)。 很 容易 观察 到 不 能 由 单个 超 平面 分 隔 的 实例 点 的 集合 ， 这 些 便 是 logistic E 
归 模 型 不 能 正确 区 分 的 实例 。 

多 反馈 线性 回归 也 存在 同样 问题 。 每 一 个 类 获得 一 个 从 训练 数据 上 计算 出 的 权 值 向 量 。 

先 着 重 讨论 一 对 具体 的 类 别 。 假 如 类 1 的 权 值 向 量 是 : 


ian) (d) a (1) 
Wy tw, a, +w, a, 十 十 WE a, 


类 2 的 权 值 向 量 是 上 标 为 2 的 同样 的 表达 式 。 如 果 对 于 一 个 实例 存在 : 


ay qa) ee o) (2) (2) cae (2) 
Wo tw, at etw, a, > wo twa, +--+ we a, 
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那么 这 个 实例 将 被 分 配 到 类 1 而 不 是 类 2。 换 名 话说 ， 就 是 一 个 实例 将 被 分 配 到 类 1 的 条 件 是 : 


2) {1) 2 (1) (2) 
(w -w ) + (wy? -wa +--+ (wi? —w Ja, >0 


这 是 一 个 关于 属性 值 的 线性 不 等 式 ， 所 以 每 对 类 之 间 的 边界 是 一 个 超 平面 。 在 执行 成 对 分 类 
时 ， 也 是 这 样 。 唯 一 的 不 同 之 处 是 两 个 类 之 间 的 边界 由 属于 这 两 个 类 别 的 训练 实例 控制 ， 而 
日 .不 会 受到 其 他 类 别 实例 的 影响 。 
4.6.3 使 用 感知 器 的 线性 分 类 

logistic 回 归 试 图 通过 将 训练 数据 的 概率 最 大 化 的 方法 ， 产 生出 正确 的 概率 估计 。 当 然 ， 
正确 的 概率 估计 会 产生 出 正确 的 分 类 。 但 是 ， 如 果 模 型 的 唯一 目的 只 是 预测 类 的 标签 ， 没 有 
必要 进行 概率 估计 。 一 种 不 同 的 方法 是 学 习 一 个 超 平面 ， 能 将 属于 不 同类 别 的 实例 分 开 ， 假 
设 只 有 两 个 类 。 如 果 使 用 一 个 超 平面 能 够 将 数据 完美 地 分 成 两 组 ， 那 么 就 称 该 数据 为 可 线性 
分 隐 (linearly separable) 的 数据 。 如 果 数 据 是 可 线性 分 隔 的 ， 便 有 一 个 非常 简单 的 算法 用 于 
寻找 一 个 分 隔 超 平面 。 

这 种 算法 称 为 感知 器 学 习 规 则 (perceptron learning rule )。 在 仔细 研究 它 之 前 ， 再 来 看 一 
下 用 于 表示 超 平面 的 等 式 : 

woao + WG, + WA, +++ Ww, a, = 0 

ZE, ay, an o, a DIERRE, wo, w, oo, w 是 定义 超 平面 的 权 值 。 假 设 扩展 每 
-个 训练 实例 a,，a;，…，、ai 使 它 存 在 一 个 额外 属性 a。， 属 性 值 始终 为 1 (正如 在 线性 回归 里 
一 样 )。 这 个 扩展 属性 称 为 偏差 (bias)， 意 味 着 在 求 总 和 时 ， 不 必 包 含 一 个 额外 的 常量 元 素 。 
如 果 所 求 出 的 和 大 于 0， 将 它 预测 成 第 一 个 类 ， 否 则 为 第 二 个 类 。 我 们 希望 找 出 权 值 ， 那 样 训 
练 数据 就 可 以 被 超 平面 正确 地 分 隔 开 。 

图 4-10a 给 出 了 为 寻找 -一 个 分 隔 超 平面 的 感知 器 学 习 规 则 。 这 个 算法 不 断 迭 代 直 到 找 出 
-个 完美 的 解决 方案 ， 但 只 有 当 数据 中 确实 存在 一 个 分 隔 超 平面 时 ， 也 就 是 当 数 据 是 可 线 
性 分 隔 时 才能 很 好 地 工作 。 每 次 循环 都 要 在 所 有 训练 实例 上 运行 。 如 果 遇 到 -一 个 错 分 的 实 
例 ， 就 要 改变 超 平面 的 参数 ， 让 错 分 的 实例 更 靠近 超 平面 ， 或 者 甚至 跃 过 超 平面 进入 正确 
的 -一边 。 如 果实 例 属于 第 一 个 类 别 ， 便 将 它 的 属性 值 加 入 权 值 向 量 ， 否 则 从 权 值 向 量 中 减 
去 它 的 属性 值 。 

现在 解释 为 什么 这 样 做 。 考虑 一 个 属于 第 一 类 别 的 实例 a 加 进来 以 后 : 


(Wotao) Ay +(W, + a1) a, +(Wy + a2) a, + +(W, + a) a, 


这 意味 着 a 的 输出 所 得 的 增加 值 为 : 

ao X Ay +A; X qltay X A, + "+ A, X A 
这 个 数 总 是 正 数 。 所 以 超 平面 将 向 能 使 实例 a 获得 肯定 分 类 的 正确 方向 移动 。 相 反 ， 如 果 一 个 
实例 属于 第 二 个 类 ， 而 被 错 分 ， 那 么 这 个 实例 的 输出 经 过 修改 后 将 降低 ， 同 样 是 将 超 平面 朝 
正确 的 方向 移动 。 

这 种 修正 是 递增 的 ， 会 与 先前 的 更 新 相抵 触 。 然 而 ， 如 果 数 据 是 可 线性 分 隔 的 ， 那 么 在 
经 过 有 限 次 的 循环 之 后 ， 算 法 将 收敛 。 当 然 ， 如 果 数 据 不 是 可 线性 分 障 的 ， 算 法 将 无 法 停止 ， 
所 以 当 这 种 方法 在 实际 运用 中 ， 需 要 强制 设 定 一 个 循环 次 数 的 上 限 。 

得 到 的 超 平面 称 为 一 个 感知 器 ， 它 是 神经 网 络 的 前 辈 (在 第 6.3 节 将 介绍 神经 网 络 )。 图 
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4-10b 是 将 感知 器 用 包含 节点 和 加 权 边 的 图 型 来 表示 ， 形 象 地 称 它 为 一 个 “神经 ”的 “网 络 ”。 
它 有 两 层 节 点 : 输入 和 输出 。 输 入 层 上 每 个 节点 代表 一 个 属性 ， 加 上 一 个 总 是 设置 为 1 的 额外 
节点 。 输 出 层 仅 有 :个 节点 构成 。 每 一 个 在 输入 层 上 的 节点 都 被 连接 到 输出 层 。 这 些 连 接 是 
加 权 的 ， 权 值 是 由 感知 器 学 习 规则 找到 的 数值 。 
将 所 有 权 值 设 为 0 | 
循环 操作 ， 直 到 所 有 训练 实例 被 正确 分 类 
对 于 训练 集中 的 每 个 实例 ! 
如 果实 例 I 被 感知 器 错误 分 类 
如 果实 例 I 属 于 第 1 个 类 别 ， 则 和 将 其 加 入 权 值 向 量 
否则 从 权 值 向 最 中 将 其 减 去 





a 学 习 规则 











b) 以 一 个 神经 网 络 形式 表达 
图 4-10 感知 器 


当 一 个 实例 放置 在 感知 器 上 时 ， 实 例 的 属性 值 将 “ 击 活 ” 输 入 层 。 属 性 值 分 别 与 权 值 相 
乘 ， 并 且 在 输出 节点 上 求 和 。 如 果 经 加 权 的 属性 值 之 和 大 于 0， 那 么 输出 结果 为 1， 表 示 实 例 
属于 第 一 类 ; 否则 和 输出 结果 为 - 1， 表 示 实 例 属 于 第 二 类 。 


4.6.4 使 用 Winnow 的 线性 分 类 

感知 器 并 非 保证 为 可 线性 分 隔 的 数据 找到 分 隔 超 平面 的 唯一 方法 。 对 于 二 值 (binary) 属 
性 的 数据 集 ， 有 -- 种 处 理 方法 称 为 Winnow 算 法 ， 见 图 4-11a。 两 种 算法 的 结构 非常 相似 。 和 
感知 器 一 样 ， 当 出 现 错 分 的 实例 时 ，Winnow 才 更 新 权 值 向 量 。 它 是 错误 驱动 (mistake driven) 
型 的 。 

两 种 方法 的 不 同 之 处 在 于 如 何 更 新 权 值 。 感 知 器 规则 应 用 一 个 加 法 机 构 ， 通 过 加 上 (或 
者 减 去 ) 实例 的 属性 向 量 来 修改 权 值 向 量 。Winnow 采 用 乘法 更 新 权 值 向 量 ， 将 权 值 乘 以 用 户 
指定 的 参数 a (或 者 a 的 倒数 ) 来 分 别 地 修改 权 值 。 属 性 a; 的 值 为 0 或 者 1， 因 为 处 理 的 是 二 值 
数据 。 如 果 属 性 值 为 0， 权 值 不 会 改变 ， 因 为 它们 没有 参与 决策 。 否 则 ， 如 果 属 性 帮助 做 出 了 
一 个 正确 的 决策 ， 那 么 乘 数 为 w， 如 果 没 有 帮助 做 出 正确 的 决策 ， 那 么 乘 数 为 la。 
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| 当 存 在 错误 分 类 实例 时 
对 于 每 个 实例 e 循 环 操作 
使 用 当前 的 权 值 对 实例 a 进 行 分 类 
如 果 预 而 类 别 不 正确 
如 果 a 属 于 第 一 个 类 
对 十 每 个 属性 值 a;， 当 a, 为 1 时 将 w, Ra 
(如 果 a; 为 0，w 保持 不 变 ) 
au 
对 于 每 个 属性 值 w . a, 为 1 时 将 w 除 以 w 
(anka, 为 0，w 保持 不 变 ) 


a) 不 平衡 的 Winnow 算 法 


当 存 在 错误 分 类 实例 时 、 
对 于 每 个 实例 a 循环 操作 
使 用 当前 的 权 值 对 实例 a 进行 分 类 
如 果 预 而 类 别 不 正确 
如 果 a 属 于 第 一 个 类 
对 于 每 个 属性 值 w， 且 w 为 1 时 
ow, RL 
将 wi 除 以 Ca 
(anka, AO, w 和 wi 保持 不 变 ) 








个 则 
对 于 每 个 属性 值 w， 且 a 为 1 时 
Hw; 乘 以 a 
Jf w Rie 
(如 果 a; HO. w 和 w 保持 不 变 ) 


b) 平衡 的 Winnow 算 法 





图 4-11 Winnow 算 法 


另 一 个 不 同 是 Winnow 在 线性 函数 中 的 阔 值 也 是 一 个 用 户 定义 的 参数 。 我 们 称 这 个 阔 值 为 

6， 当 且 仅 当 满 足以 下 条 件 时 ， 才 将 这 个 实例 分 配 到 类 1 上 : 
Wolo +W,0, +w 4, +1 +W, a, >0 

乘 数 a 需要 大 十 1。 在 开始 的 时 候 将 wi; 设置 成 常量 。 

以 上 描述 的 算法 不 允许 有 负 的 权 值 ， 要 看 具体 的 应 用 领域 ， 这 可 能 成 为 一 种 缺点 。 然 而 ， 
还 有 另 一 个 版 本 称 为 平衡 的 Winnow (Balanced Winnow), 平衡 的 Winnow 人 允许 使 用 负 的 权 值 。 
这 个 版 本 包含 两 个 权 值 向 量 ， 每 个 类 对 应 一 个 权 值 向 量 。 如 果 “个 实例 满足 以 下 条 件 ， 它 将 
被 分 到 类 1 中 。 图 4-11b 是 平衡 的 Winnow 算 法 : 


(w3 —w3)a t+(wi -wi a, to + (wy — Ww, a, >0 


Winnow 算 法 是 对 于 跟踪 数据 集 上 的 相关 属性 非常 有 效 的 方法 ， 为 此 称 为 有 效 属 性 
(attribute-efficient) 学 习 器 。 如 果 一 个 数据 集 存 在 很 多 (二 值 ) 属性 ， 并 且 其 中 的 大 部 分 属 
性 不 相关 的 ， 那 么 Winnow 也 许 是 一 个 好 的 候选 算法 。Winnow 和 感知 器 算法 一 样 可 以 用 于 实 
时 设置 (online setting ) ， 在 实时 设置 的 情况 下 ， 新 实例 连续 不 断 地 到 来 ， 而 每 当 有 新 的 实例 
到 达 时 ， 这 两 个 算法 能 递增 地 更 新 它们 的 假定 。 
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47 基于 实例 的 学 习 

在 基于 实例 的 学 习 中 ， 训 练 样本 被 一 字 不 差 地 保存 ， 并 且 使 用 一 个 距离 函数 来 判定 训练 
集中 的 哪个 实例 与 一 个 未 知 的 测试 实例 最 靠近 。 一 旦 找到 最 靠近 的 训练 实例 ， 那 么 最 靠近 实 
例 所 属 的 类 就 被 预测 为 测试 实例 的 类 。 剩 下 的 唯一 问题 就 是 定义 距离 函数 ， 它 并 不 十 分 困难 ， 
尤其 是 当 属性 为 数值 属性 时 。 
4.7.1 距离 函数 

尽管 存在 其 他 可 能 的 选择 ， 但 是 大 部 分 基于 实例 的 学 习 方法 使 用 欧 几 里 得 距离 函数 。 属 
HEED aaya) ARE TAMERS) BRAS BZ IPE Pa) 的 实例 之 间 
的 距离 定义 为 : 

128 (a? a Ha =a?) +4 ay 


比较 距离 时 ， 不 必 计 算 平方 根 ， 直 接 使 用 平方 之 和 进行 比较 。 欧 儿 里 得 距离 可 以 由 曼 哈 
顿 (Manhattan) 或 者 city-block 距 离 度量 来 替代 ， 曼 哈 顿 和 city-block 不 是 计算 属性 值 差 值 的 
平方 ， 而 是 将 差 值 相 加 ( 取 绝 对 值 以 后 )。 其 他 方法 采用 指数 大 于 2 的 形式 。 更 高 的 指数 增加 
了 大 差异 的 影响 力 而 削弱 了 小 差异 的 影响 力 。 通 常 欧 几 里 得 距离 公式 是 一 个 很 好 的 折 中 方法 。 
在 一 些 特 殊 场合 ， 其 他 的 距离 度量 法 也 许 更 为 适合 。 关 键 是 要 思考 真实 的 距离 以 及 二 者 之 间 
以 某 个 具体 距离 分 隔 开 意味 着 什么 ”又 警 如 ， 这 个 距离 的 两 倍 又 意味 着 什么 ? 

不 同 的 属性 用 不 同 的 尺度 量度 ， 如 果 直 接 使 用 欧 几 里 得 公式 ， 某 些 属性 的 结果 可 能 被 另 
外 … 些 使 用 较 大 量度 尺寸 的 属性 完全 削弱。 所 以 ， 通 常 需要 将 所 有 属性 值 正常 化 ， 在 0 和 1 之 
间 。 通 过 计算 : 





_ ¥,~miny, 
i 


maxv; — min y, 


这 里 , v eR PE SIA, RAKAR PELE A VARRAR A A RY 

这 些 公 式 隐 含 的 假设 为 数值 属性 。 这里， 两 个 值 之 间 的 差 就 是 它们 之 间 的 数值 差异 ， 将 
这 个 差 值 平方 以 后 再 相 加 得 到 距离 函数 。 对 于 名 词性 属性 ， 属 性 值 是 符号 值 而 不 是 数值 ， 两 
个 不 同 的 名 词性 属性 值 之 差 常 认为 是 1， 如 果 名 词性 属性 值 相同 ， 它 们 的 差 值 为 0。 这 里 无 需 
量度 尺寸 ， 因 为 只 使 用 1 和 0。 

-个 通用 的 处 理 残 缺 值 的 方法 如 下 。 对 于 名 词性 属性 ， 假 设 残缺 属性 值 与 其 他 属性 值 的 
差别 达到 最 大 值 。 因 此 如 果 两 个 属性 值 中 的 一 个 或 者 两 个 都 残缺 ， 或 者 如 果 两 个 属性 值 不 同 ， 
那么 它们 之 间 的 差 值 为 1 只 有 两 个 属性 值 都 不 残缺 ， 并 且 相 同时 ， 它 们 之 间 的 差 值 才 为 0。 
对 于 数值 属性 ， 两 个 残缺 值 之 差 也 为 1。 但 是 ， 如 果 仅 有 一 个 属性 值 残缺 ， 那 么 它们 的 差 值 是 
另 个 值 的 正常 化 值 ， 或 是 1 减 去 那个 正常 化 值 ， 取 两 者 中 较 大 的 那个 。 这 意味 着 如 果 属 性 值 
残缺 ， 差 值 将 会 达到 可 能 的 最 大 差 值 。 


4.7.2 有 效 寻找 最 近邻 


尽管 基于 实例 的 学 习 方法 不 但 简单 而 且 很 有 效果 ， 但 是 通常 速度 很 慢 。-…- 种 显而易见 、 
用 于 寻找 哪个 训练 集成 员 最 靠近 类 未 知 的 测试 实例 的 方法 便 是 ， 计 算 训练 集 里 的 每 -一 个 训练 
[129] 实例 到 测试 实例 的 距离 ， 并 选择 距离 最 小 的 那 一 个 。 这 个 过 程 与 训 妆 : 灾 例 的 数量 成 线性 关系 ， 
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换 句 话说 ， 就 是 做 一 个 单独 的 预测 所 花费 的 时 间 与 训练 实例 的 数量 成 比例 关系 。 处 理 整 个 测 
试 集 所 花费 的 时 间 与 训练 集 实例 数量 和 测试 集 实例 数量 的 乘积 成 比例 关系 。 

以 树 的 形式 表示 训练 实例 集 能 更 加 有 效 地 找 出 最 近邻 实例 ， 尽 管 怎样 用 树 来 表示 并 不 十 
分 明显 。 其 中 一 种 适合 的 树 结构 是 kD 树 。kD 树 是 一 个 二 叉 树 ， 它 用 一 个 超 平面 将 输入 实例 空 
间 分 隔 开 ， 然 后 再 将 每 一 个 部 分 递归 地 进行 分 裂 。 在 二 维 数据 空间 上 ， 所 有 的 分 裂 都 与 一 个 
轴 平 行 或 者 垂直 。 数 据 结 构 称 为 kD 树 ， 是 因为 它 将 一 系列 的 数据 点 存储 在 k 维 空间 ，k 是 属性 
的 数量 。 

图 4-12a 展 示 Pk = 2 的 小 例子 ， 图 4-12b 显 示 了 4 个 训练 实例 ， 以 及 构成 树 的 超 半 面 。 注 意 
这 些 超 平面 不 是 决策 边界 ， 分 类 决策 将 由 稍 后 介绍 的 最 近邻 基础 上 做 出 。 第 一 次 分 裂 是 水 平 
Dh), DRA (74) 是 树 的 根 节点 。 左 支 将 不 再 进一步 分 裂 ， 它 包含 了 一 个 点 (2, 2), 
是 树 的 叶子 。 右 支 在 点 (6, 7) 处 进行 垂直 分 裂 (v)。 它 的 右 支 为 空 ， 左 支 包含 一 个 点 (3, 8). 
如 该 例 所 示 ， 每 个 区 域 只 有 一 个 点 ， 或 者 没有 点 。 树 的 同胞 (sibling) 分 支 ， 例 如 ， 图 4-12a 
中 根 节 点 的 两 个 子 支 ， 并 不 一 定 要 发 展 到 相同 的 深度 。 训 练 集中 的 每 一 个 点 与 树 的 一 个 节点 
相对 应 ， 最 多 达 一 半 的 节点 是 叶 节 点 。 























(7,4); h 
as 
4 
o (3,8) 
(6,7) 
(2,2) (6,7); v 
ga | 
o (2,2) 
(3,8) > a, 
a) 树 b) 实例 和 分 裂 


图 4-12 含 4 个 训练 实例 的 tD 树 


如 何 为 -- 个 数据 集 建 一 个 tD 树 ” 当 新 的 训练 实例 加 入 时 ，kD 树 能 够 进行 有 效 的 更 新 吗 ? 
ktD 树 又 是 如 何 提升 最 近邻 计算 速度 的 ? 首先 看 最 后 一 个 问题 。 

为 了 找到 一 个 给 定 目标 点 的 最 近邻 ， 需 要 从 树 的 根 节点 开始 向 下 治 树 找 出 目标 点 所 在 的 区 
域 。 图 4-13 是 一 个 近似 于 图 4-12b 的 实例 空间 ， 只 是 多 几 个 实例 并 增加 了 一 条 边界 。 目 标点 不 
大 树 上 的 实例 中 的 一 个 ， 图 中 用 了 一 个 量 标 出 。 晶 标点 所 在 区 域 的 叶 节点 涂 成 黑色 。 正 如 该 例 
所 示 ， 叶 节点 不 一 定 是 目标 点 的 最 近邻 ,但 是 ， 这 是 寻找 最 近 点 的 很 好 的 首次 尝试 。 值 得 注意 
的 是 ， 任 何 更 近 的 近邻 点 必须 落 在 更 近 的 地 方 ， 例 如 落 在 图 4-13 的 虚线 圆 范围 内 。 为 了 确定 是 
否 存在 一 个 更 近 的 近邻 ， 首 先 检查 叶 节点 的 同胞 节点 是 否 有 可 能 存在 一 个 更 近 的 近邻 。 黑 色 贡 
点 的 同胞 节点 是 图 4-13 有 阴影 的 部 分 ， 但 是 虚线 圆 并 没有 与 之 相交 ， 所 以 同胞 节点 内 不 可 能 包 
含 更 近 的 近邻 。 然 后 回 湖 到 父 节点 ， 并 检查 父 节点 的 同胞 节点 ， 父 节点 的 同胞 节点 覆盖 了 所 有 
横 线 以 上 的 区 域 。 在 这 个 例子 中 ， 必 须 对 个 区 域 做 进一步 研究 ， 因 为 这 个 区 域 与 当前 的 最 佳 加 





90 HED 机 器 学 习 工 具 与 技术 


相交 。 首 先 找 出 它 的 子 节点 〈 即 初始 点 的 两 个 板 辈 节点 )， 检 查 它 们 是 否 和 圆 相交 (左边 那个 
不 相交 ， 而 右边 那个 与 圆 相交 )， 并 由 此 向 下 寻找 是 否 存在 一 个 更 近 点 〈 存 在 )。 





图 4-13 使 用 上 D 树 寻找 星 的 最 近邻 


在 典型 的 案例 中 ， 这 个 算法 比 考察 所 有 点 来 寻找 最 近邻 的 方法 快 很 多 。 寻 找 一 个 初始 的 
近似 最 近邻 点 一 一 图 4-13 中 的 黑色 点 , 与 树 的 深度 密切 相关 , 树 的 深度 由 树 的 节点 个 数 取 对 数 ， 
即 log; n。 回 溯 并 检查 是 否 存在 最 近邻 的 工作 量 有 一 小 部 分 取决 于 树 ， 另 一 部 分 取决 于 初始 近 
似 点 的 好 坏 程 度 。 但 是 对 于 一 个 结构 良好 的 树 来 说 ， 它 的 节点 近似 于 方形 ， 而 不 是 瘦长 的 矩 
形 ， 这 部 分 工作 量 也 是 取决 于 节点 个 数 的 对 数 。 

如 何 才能 在 一 个 训练 样本 集 上 创建 一 棵 好 树 ? 关键 问题 归结 为 对 要 分 裂 的 第 一 个 训练 实 
例 的 选择 以 及 分 裂 的 方向 。 一 旦 完成 这 项 工作 ， 就 可 以 在 初始 分 裂 所 生成 的 每 个 子 节点 上 递 
归 应 用 相同 的 方法 来 完成 建树 过 程 。 

为 了 给 分 隔 寻找 一 个 好 的 方向 ， 需 要 分 别 计算 数据 点 在 每 个 轴 向 上 的 方差 ， 选 择 最 大 方 
差 所 对 应 的 轴 ， 然 后 建立 一 个 与 该 轴 垂 直 的 分 隔 超 平面 。 为 了 给 分 隔 超 平面 找到 一 个 好 位 置 ， 
要 找 出 位 于 那个 轴 向 上 的 中 间 值 ， 并 选择 与 之 相对 应 的 点 。 这 将 使 分 隔 面 垂直 于 (数据 ) 散 
布 范围 最 广 的 方向 ， 让 每 一 边 都 拥有 一 半 的 数据 点 。 这 种 方法 将 产生 一 个 平衡 的 树 。 为 了 避 
免 出 现 长 条 形 区 域 ， 最 好 能 使 连续 的 分 裂 在 不 同 轴 向 上 。 因 为 每 个 阶段 都 选择 方差 最 大 的 轴 
向 ， 因 此 很 有 可 能 满足 这 点 。 但 是 ， 如 果 数 据点 的 分 布 非常 不 均衡 ， 采 用 选择 中 间 值 的 方法 
也 许 会 在 同一 个 方向 上 产生 多 次 后 续 分 隔 ， 从 而 产生 瘦长 形 的 超 和 矩形 (hyperrectangle)。 一 个 
更 好 的 解决 方法 是 计算 平均 值 而 不 是 中 间 值 ， 并 使 用 最 接近 平均 值 的 点 。 由 此 产生 的 树 也 不 
是 完美 的 平衡 ， 但 是 它 的 区 域 趋向 于 方形 ， 因 为 这 种 方法 增加 了 在 不 同方 向 上 产生 后 续 分 隔 

B] 的 机 会 。 

与 其 他 大 部 分 机 器 学 习 方法 相 比 ， 基 于 实例 学 习 的 一 个 优势 是 新 的 实例 可 以 在 任何 时 候 
加 入 到 训练 集 里 。 在 使 用 kD 树 时 ， 为 了 保持 这 个 优势 ， 需 要 用 新 的 数据 点 不 断 地 更 新 这 棵 树 。 
判断 哪个 叶 节 点 包含 了 新 的 数据 点 ， 并 且 找 出 叶 节 点 的 超 矩 形 。 如 果 超 矩形 为 空 ， 就 将 新 数 
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据点 放置 在 那里 。 否 则 ， 分 裂 超 和 矩形， 分 裂 在 最 长 的 尺寸 边 上 进行 ， 以 保持 方形 。 这 种 简单 
的 探索 式 方 法 并 不 能 保证 在 加 入 -- 系 列 点 以 后 ， 树 依然 会 维持 平衡 ， 也 不 能 保证 为 搜索 最 近 
邻 塑 造 良 好 的 超 和 矩形 。 有 时 从 头 开始 重建 树 不 失 为 一 个 良策 。 例 如 ， 当 树 的 深度 达到 最 可 能 
的 深度 值 的 两 倍 时 。 

我 们 已 经 看 到 ，kD 树 是 可 用 于 有 效 录 找 最 近邻 的 良好 数据 结构 ， 但 是 ， 并 不 完美 。 当 处 
理 不 均匀 分 布 的 数据 集 时 便 呈 现 出 一 个 基本 冲突 : 既 要 求 树 有 完美 的 平衡 结构 ， 又 要 求 区 域 
近似 方形 。 更 重要 的 是 ， 和 矩形 ， 甚 至 正方 形 ， 都 不 是 最 好 的 使 用 形状 ， 原 因 是 它们 都 有 和 角 。 
如 果 墨 色 的 实例 离 目 标点 再 远 一 点 ， 图 4-13 中 的 虚线 圆 会 更 大 ， 那 么 虚线 圆 将 有 可 能 与 左上 
方 矩形 的 右 下 角 相 交 ， 因 此 也 必须 对 这 个 矩形 进行 检查 ， 尽 管 实际 上 定义 这 个 矩形 的 训练 实 
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解决 方案 ? 使 用 超 球体 (hypersphere ) fi HMI. 52, MBA HEME ER, 
而 矩形 却 可 以 彼此 相 上 毗邻， 但 这 并 不 是 一 个 问题 ， 因 为 前 面 讲述 的 用 于 kD 树 的 最 近邻 算法 并 
不 需要 区 域 之 间 不 相交 。 一 个 称 为 球 树 (ball tree) 的 数据 结构 定义 了 k 维 超 球 体 (“ 球 ”)， 它 
覆盖 了 所 有 的 数据 点 ， 并 将 它们 安排 成 一 个 树 结构 。 

图 4-14a 展 示 了 一 维 空间 上 的 16 个 实例 ， 被 由 重 登 圆 组 成 的 图 案 所 覆盖 。 图 4-14b 是 由 这 些 
圆 形成 的 树 。 在 树 的 不 同 层 上 的 圆 用 不 同形 式 的 虚线 画 出 ， 更 小 的 圆 被 打上 灰色 的 阴影 。 树 
的 每 个 节点 代表 “个 球 ， 采 用 同样 的 表达 习惯 将 节点 分 别 画 成 虚线 或 者 打上 阴影 ， 这 样 就 能 
清楚 辨别 出 球 属于 哪 一 层 。 为 了 有 助 于 对 树 的 理解 ， 节 点 上 标明 了 数字 以 显示 那个 球 里 数据 
点 的 个 数 。 注 意 : 这 个 数字 不 一 定 和 落 在 这 个 球 所 代表 的 球形 空间 区 域 里 的 数据 点 数量 一 致 。 
在 每 ~- 层 上 的 区 域 有 了 时 会 重 又 ， 但 是 落 在 重合 区 域 里 的 点 只 能 被 分 配 到 重 又 球 中 的 一 个 上 
(在 图 中 看 不 出 到 底 是 哪个 )。 代 赫 存 储 数据 点 占有 量 ( 如 图 4-14b 所 示 )， 真 实 球 树 的 节点 上 
存储 了 球 的 中 心 点 和 半径 ， 在 叶 节 点 则 记录 了 所 包含 的 数据 点 。 

使 用 球 树 找 出 给 定 目标 点 的 最 近邻 方法 是 ， 首 先 自 上 向 下 贯穿 整 棵 树 找 出 包含 目标 点 所 
在 的 叶子 ， 并 在 这 个 球 里 找 出 与 目标 点 最 靠近 的 点 。 这 将 给 出 目标 点 距离 它 的 最 近邻 点 的 一 
个 上 限 值 。 然 后 ， 和 kD 树 一 样 ， 检 查 同胞 节点 。 如 果 目 标点 到 同胞 布点 中 心 的 距离 超过 同胞 
节点 的 半径 与 当前 的 上 限 值 之 和 ， 那 么 同胞 节点 里 不 可 能 存在 一 个 更 近 的 点 ; 否则 的 话 ， 必 
须 进一步 检查 位 于 同胞 节点 以 下 的 树 。 在 图 4-15 中 ， 目 标点 用 一个 星 表示 ， 黑 色 点 是 当前 已 
知 的 目标 点 的 最 近邻 。 灰 色 球 里 的 所 有 内 容 将 被 排除 ， 因 为 灰色 球 的 中 心 点 离 得 太 远 ， 所 以 
它 不 可 能 包含 一 个 更 近 的 点 。 递 归 地 向 树 的 根 节点 进行 回调 处 理 ， 检 查 所 有 可 能 包含 一 个 更 
近 于 当前 上 限 值 的 点 的 球 。 

球 树 是 自 上 而 下 地 建立 ， 和 kD 树 一 样 ， 根 本 问题 是 要 找到 一 个 好 的 方法 将 包含 数据 点 集 
的 球 分 裂 成 两 个 。 在 实践 中 ， 不 必 等 到 叶子 节点 只 有 两 个 数据 点 时 才 停 止 ， 可 以 采用 和 kD 树 
一 样 的 方法 ， 一 旦 节点 上 的 数据 点 达到 预先 设置 的 最 小 数量 时 ， 便 可 提前 停止 建树 过 程 。 这 
里 有 一 个 可 行 的 分 裂 方法 。 从 球 中 选择 一 个 离 球 的 中 心 最 远 的 点 ， 然 后 选择 第 二 个 点 离 第 一 
个 点 最 远 。 将 球 中 所 有 的 点 分 配 到 离 这 两 个 聚 类 中 心 最 近 的 一 个 上 ， 然 后 计算 每 个 豪 类 的 中 
O, 以 及 诊 类 能 够 包含 它 所 有 数据 点 所 需 的 最 小 半径 。 这 种 方法 的 优点 是 分 裂 一 个 包含 个 数 
据点 的 球 的 成 本 只 是 随 n 呈 线性 增加 。 其 他 更 好 的 算法 会 产生 出 更 紧凑 的 球 ,但 是 需要 的 计算 
量 更 大 。 这 里 将 不 再 继续 讨论 复杂 的 算法 ， 用 于 创建 球 树 ， 或 者 用 于 新 的 实例 加 入 时 ， 对 球 
树 进行 递增 更 新 。 


we 





92 HED MBF ILASRK 





a) 实例 和 球 
(1) 


O (40) 


nhs: akan, 
d\ pee dh 


b) 树 
图 4-14 16 个 训练 实例 的 球 树 





、 7 
zep? 


图 4-15 根据 目标 点 (E) 和 目标 点 当前 最 近邻 排除 整个 球 (灰色 ) 
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47.3 讨论 

基于 实例 的 最 近邻 学 习 方 法 不 但 简单 ， 而 且 通 常 运作 很 好 。 在 前 面 描述 的 方法 中 ， 每 一 个 属 
性 在 决策 上 具有 相同 的 影响 力 ， 就 像 朴 素 贝 叶 斯 方法 一 样 。 另 一 个 问题 是 数据 库 很 容易 受 干 扰 样 
本 破坏 。 一 个 解决 方案 是 采用 k 最 近邻 法 ， 找 出 固定 的 、 小 的 、k 个 最 近邻 ， 如 5 个 ， 让 它们 通过 
简单 的 投票 方法 (少数 服从 多 数 ) 共同 决定 测试 实例 的 类 别 。( 注 意 ' 前 面 曾 使 用 k 来 代表 属性 的 
个 数 ， 这 里 的 k 是 一 个 不 同 的 、 独 立 的 使 用 方法 。) 另 -种 增强 数据 库 抵抗 干扰 数据 的 方法 是 明智 
地 挑选 样本 ， 然 后 再 加 入 训练 集 ; 第 6 章 将 阐述 一 些 改 进 的 方法 ， 同 时 也 指出 各 自 存在 的 不 足 。 

最 近邻 法 起 源 于 几 十 年 以 前 ， 统 计 学 家 在 20 世 纪 50 年 代 早 期 就 分 析 了 Kk 最 近邻 法 。 如 果 训 
练 实例 的 数量 很 大 ， 直 观感 觉 需 要 使 用 不 止 一 个 最 近邻 ， 但 是 ， 如 果实 例 的 数量 非常 少 ， 很 
明显 这 种 方法 是 危险 的 。 当 k 和 实例 的 数量 n 都 变 成 无 穷 大 ， 使 得 Kn ~ 0 时 ， 那 么 在 数据 集 上 产 
生 的 误差 概率 将 达到 理论 上 的 最 小 值 。 早 在 20 世 纪 60 年 代 最 近邻 法 就 已 经 被 采纳 为 分 类 方法 ， 
并 且 在 模式 识别 领域 已 经 广泛 使 用 了 30 多 年 。 

最 近邻 分 类 法 的 速度 之 慢 是 众所周知 的 ， 直 到 20 世 纪 90 年 代 早期 开始 使 用 kD 树 ， 尽 管 D 
树 数 据 结构 本 身 发 展 要 早 得 多 。 在 实践 中 ， 当 实例 空间 的 维 数 增加 时 ， 这 些 树 就 变 得 效率 很 
低 ， 只 有 当 属 性 数量 很 小 时 ， 最 高 为 10， 它 才 有 应 用 价值 。 球 树 是 最 近 才 研究 的 ， 是 属于 一 
种 更 为 通用 结构 的 一 个 实例 ， 这 个 通用 结构 有 时 称 为 测量 树 (metric tree )。 由 一 些 高 级 的 算 
法 创建 的 测量 树 能 够 成 功 地 处 理 数 千 维 的 实例 空间 。 

采用 将 所 有 训练 实例 压缩 到 多 个 区 域 里 的 方法 来 取代 存储 所 有 实例 。 在 第 4.1 节 结尾 部 分 
提 到 一 个 非常 简单 的 技术 ， 记 录 在 训练 数据 上 所 观察 到 的 每 一 个 属性 值 和 每 一 种 类 别 上 的 区 
域 。 对 于 给 出 的 一 个 测试 实例 ， 找 出 测试 实例 各 个 属性 值 所 在 的 区 域 ， 选 择 与 测试 实例 属性 
值 区域 正 确 对 应 数量 达 最 多 的 那个 类 作为 这 个 实例 的 类 别 。 一 个 更 为 精细 的 技术 是 对 每 个 属 
性 建立 多 个 区 间 ， 并 且 使 用 训练 集 在 每 个 属性 上 对 每 个 属性 值 区 间 统 计 每 个 类 出 现 的 次 数 。 
数值 属性 可 以 被 离散 成 多 个 区 间 ， 由 一 个 点 组 成 的 区 间 可 以 用 来 处 理 名 词性 属性 值 。 然 后 ， 
能 够 判断 出 一 个 测试 实例 的 各 个 属性 值 分 别 属于 哪个 区 间 ， 用 投票 的 方式 对 测试 实例 进行 分 
类 ， 这 种 方法 称 为 投票 特征 区 间 (voting feature intervals )。 这 些 是 近似 的 方法 ， 但 是 运行 的 
速度 很 快 ， 可 以 用 来 对 大 的 数据 集 进行 初始 分 析 。 
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不 是 预测 实例 的 类 别 ， 而 是 将 实例 分 成 自然 的 组 时 ， 就 需要 用 聚 类 (clustering) 技术 。 这 些 
聚 类 想必 反映 了 在 实例 所 属 的 某 个 领域 中 的 一 些 运 作 机 制 ， 这 些 机 制导 致 一 些 实例 之 间 彼 此 十 分 
相似 ， 击 有 别 于 其 他 实例 。 自 然 豪 类 所 需要 的 技术 不 同 于 我 们 目前 学 到 的 分 类 和 关联 学 习 的 方法 。 

正如 在 第 3.9 节 所 述 ， 有 多 种 表示 聚 类 结果 的 方法 。 识 别 出 的 组 可 以 是 排他 的 ， 因 此 任何 
实例 只 能 属于 其 中 的 某 一 个 组 ; 或 者 是 可 以 重 全 的 组 ， 因 此 一 个 实例 可 以 落 入 几 个 组 ; 或 者 
是 以 概率 的 形式 ， 一 个 实例 是 以 一 定 的 概率 分 属于 每 个 组 ; 或 者 是 分 等 级 的 ， 在 顶层 将 实例 
大 致 地 进行 分 组 ， 随 后 每 一 个 组 再 被 进一步 细 分 ， 也 许 所 有 路 径 最 终 都 要 到 达 一 个 单独 实例 。 
对 这 些 可 能 方法 的 选择 应 该 由 运作 机 制 的 自然 属性 所 支配 ， 这 些 运作 机 制 被 认为 是 特定 聚 类 
现象 的 依据 。 然 而 ， 因 为 这 些 运作 机 制 很 少 被 认 知 ， 毕 竟 聚 类 是 真正 存在 的 ， 我 们 正 试图 去 
发 现 它 一 一 再 加 上 一 些 实践 运用 上 的 原因 ， 选 择 通常 是 由 现存 的 聚 类 工具 所 支配 。 

下 面 将 考察 一 个 算法 ， 这 个 算法 将 在 数值 领域 内 形成 聚 类 ， 把 实例 划分 到 不 相交 的 诊 类 
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上 。 正 如 基于 实例 学 习 的 基本 最 近邻 法 一 样 ， 它 是 一 个 简单 明了 的 技术 ， 已 经 使 用 了 几 十 年 。 
在 第 6 章 将 讨论 一 些 新 的 豪 类 方法 ， 这 些 方 法 将 产生 递增 聚 类 和 概率 聚 类 。 


4.8.1 基于 距离 的 迭代 全 类 


经 典 的 育 类 技术 称 为 均值 (k-means )。 首 先 ， 指 定 所 需 寻 找 的 聚 类 个 数 ， 这 便 是 参数 K。 
然后 随机 选 出 k 个 点 作为 察 类 的 中 心 。 根 据 普通 的 欧 儿 里 得 距离 量 诬 ， 将 所 有 的 实例 分 配 到 各 
ARAGON RED. 下 一 步 是 计算 出 实例 所 在 的 每 个 聚 类 的 质心 ， 或 者 平均 值 ， 这 就 是 
“均值 ”部 分 。 这 些 质 心 将 成 为 各 个 豪 类 的 新 的 中 心 值 。 最 后 ， 用 新 的 府 类 中 心 重复 整个 过 程 。 
迭代 过 程 不 断 继续 直到 在 连续 的 儿 轮 里 ， 每 个 察 类 上 分 到 的 点 与 在 上 -一 轮 分 到 的 点 相同 ， 此 
时 聚 类 的 中 心 已 经 固定 ， 并 且 会 永远 保持 。 

这 个 聚 类 法 简单 并 且 有 效 。 容 易 证 明 选 择 质心 作为 聚 类 的 中 心 ， 使 得 聚 类 中 每 一 个 点 到 中 心 
的 距离 平方 之 和 达到 最 小 。 一 旦 迭代 过 程 的 结果 趋 于 稳定 ， 每 一 个 点 被 分 配 到 离 它 最 近 的 聚 类 中 
心 ， 所 以 最 终 是 将 所 有 点 到 它们 各 自 聚 类 中 心 的 距离 平方 之 和 最 小 化 。 但 是 ， 它 只 是 一 个 局 部 的 
最 小 值 ， 并 不 能 保证 是 一 个 全 局 的 最 小 值 。 最 终 的 聚 类 对 初始 的 聚 类 中 心 相 当 敏 感 。 在 初始 随机 
选择 上 的 微小 变化 会 造成 完全 不 同 的 聚 类 结果 。 实 际 上 ， 通 常 不 可 能 找到 全 局 优化 的 察 类 ， 这 也 
是 所 有 实际 应 用 聚 类 技术 的 真实 现状 。 为 了 增加 找到 全 局 最 小 值 的 机 会 ， 人 们 经 常 需要 用 不 同 的 
初始 选择 多 次 运行 算法 ， 然 后 从 中 选择 一 个 最 佳 的 结果 ， 即 距离 平方 之 和 最 小 的 那个 。 

可 以 容易 地 设想 出 一 个 用 K 均 值 方法 聚 类 失败 的 情况 。 假 设 ， 在 一 个 二 维 空间 上 有 4 个 实 
例 分 布 在 一 个 矩形 的 (4 个 ) 顶端 。 处 于 短 边 两 端的 实例 分 别 形成 两 个 自然 的 聚 类 。 但 是 ， 如 
果 两 个 初始 聚 类 的 中 心 落 在 长 边 的 中 点 上 ， 将 会 产生 一 个 稳定 的 结构 ， 无 论 长 边 和 短 边 之 差 
如 何 之 大 ， 所 产生 的 两 个 衰 类 中 的 每 一 个 都 将 拥有 位 于 长 边 两 端的 两 个 实例 。 


4.8.2 快速 距离 计算 


k 均 值 聚 类 算法 通常 需要 多 次 迭代 ， 每 次 都 要 计算 每 一 个 实例 到 k 个 聚 类 中 心 的 距离 ， 从 
而 决定 它 的 聚 类 。 利 用 一 些 简单 的 近似 法 可 以 使 得 计算 速度 大 大 提高 。 例 如 ， 可 以 将 数据 集 
投影 ， 然 后 按照 选 定 的 轴 进 行 分 裂 ， 来 取代 由 选择 最 近 的 聚 类 中 心 所 意味 着 使 用 的 任意 超 平 
面 的 分 裂 法 。 但 是 所 得 到 的 聚 类 的 质量 不 可 避免 地 会 降低 。 

这 里 介绍 个 更 好 的 加 速 法 。 寻 找 最 近 聚 类 中 心 和 用 基于 实例 学 习 方法 寻找 最 近邻 差别 
并 不 很 大 。 那 么 是 否 同样 可 以 借用 kD 树 和 球 树 这 两 种 有 效 的 解决 方案 ”当然 可 以 ! 实际 上 ， 
TARA -个 更 加 有 效 的 方法 ， 因 为 在 k 均 值 的 每 一 次 迭代 过 程 中 ， 所 有 的 数据 点 都 被 一 起 处 
理 ， 而 在 基 十 实例 的 学 习 中 ， 测 试 实例 被 个 别处 理 。 

首先 ， 为 所 有 的 数据 点 ， 创 建 一 个 名 树 或 者 球 树 ， 它 们 在 整个 聚 类 过 程 中 将 保持 不 变 。 每 
一 次 k 欧 值 的 迭代 过 程 产生 一 组 窗 类 中 心 ， 所 有 数据 点 必须 经 检验 后 ， 分 配 到 最 近 的 聚 类 中 心 。 
一 种 处 理 数 据点 的 方法 是 从 树 的 根 节 点 向 下 直到 到 达 叶 节点 ， 然 后 分 别 检查 叶 节点 上 每 个 点 ， 
从 而 寻找 它 的 最 近 聚 类 中 心 。 但 是 ， 也 许 一 个 较 高 位 置 的 内 部 节点 所 代表 的 区 域 会 完全 落 人 某 
个 单独 的 聚 类 中 心 所 涉及 范围 内 。 在 这 种 情况 下 所 有 位 于 那个 节点 下 的 数据 点 被 -一 次 处 理 完 。 

最 终 目 的 是 通过 计算 数据 点 所 拥有 的 质心 ， 为 聚 类 中 心 寻 找 新 位 置 。 计 算 质心 是 利用 计 
算 聚 类 中 数据 点 之 连续 向 量 和 ， 并 且 统 计 到 目前 为 止 数据 点 的 个 数 。 最 后 ， 用 向 量 和 除 以 统 
计 个 数 就 得 到 质心 。 假 如 在 树 的 每 一 个 节点 上 保存 该 节点 拥有 的 数据 点 向 量 之 和 ， 以 及 数据 
点 的 个 数 。 当 整个 节点 落 入 某 个 豪 类 范围 内 时 ， 那 么 那个 诊 类 计算 总 值 便 能 立刻 得 到 更 新 . 
否则 ， 则 需 深入 查看 节点 内 部 ， 递 归 地 沿 树 向 下 处 理 。 
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PRL 4- 1.6 {i FA: 5 E4- 14A Se BA EIER, ERARA REER. 
因为 所 有 的 实例 都 被 分 配 到 最 近 的 聚 类 中 心 ， 所 以 实例 空间 被 一 条 粗 直 线 分 成 两 个 部 分 ， 图 
4-16a。 从 图 4-16b 树 的 根 节点 开始 ， 每 个 聚 类 的 向 量 和 以 及 每 个 育 类 拥有 的 数据 点 的 统计 个 数 





b) 与 之 相对 应 的 树 
图 4-16 一 个 球 树 
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都 被 初始 化 为 0。 处 理 是 自 上 而 下 递归 地 进行 的 。 当 到 达 A 节 点 时 ， 在 A 上 的 所 有 数据 点 将 落 
入 聚 类 1， 所 以 聚 类 1 的 总 和 数 以 及 数据 点 统计 数 可 用 节点 A 的 总 和 数 以 及 数据 点 统计 数 进行 更 
新 ， 到 此 为 止 。 然 后 经 递归 返回 到 B 节 点 ， 因 为 这 个 球 跨越 了 聚 类 的 边界 ， 所 以 在 它 上 面 的 数 
据点 必须 分 别 检验 。 当 到 达 节 点 C 时 ， 它 完全 落 入 聚 类 2 中 ， 同 样 地 ， 可 以 立即 更 新 聚 类 2， 并 
不 再 需要 继续 往 下 。 树 只 需要 被 检验 到 图 4-16b 中 的 虚线 边界 处 ， 优 点 是 至 少 位 于 虚线 以 下 的 
节点 不 需要 被 处 理 了 ， 至 少 不 需 要 在 这 一 轮 的 K 均 值 和 迭代 中 进行 处 理 。 在 下 一 轮 选 代 中 ， 聚 类 
中 心 将 会 改变 ， 情 况 也 许 会 发 生 不 同 。 


4.8.3 讨论 


现在 已 经 开发 出 多 种 不 同 的 基本 的 均值 算法 。 其 中 的 一 些 算法 是 产生 一 个 分 级 的 京 类 ， 
它 是 通过 在 整个 数据 集 上 应 用 = 2 的 /均值 法 ， 然 后 在 所 产生 的 每 个 聚 类 里 递归 地 重复 。 

如 何 选择 k? 一 般 并 不 知道 有 可 能 的 聚 类 的 个 数 ， 所 以 译 类 的 关键 是 要 找到 这 个 数量 。 一 
种 方法 是 试 着 采用 不 同 的 聚 类 的 个 数 ， 从 中 选 出 最 佳 的。 为 此 ， 需 要 知道 如 何 评估 机 器 学 习 
的 效果 ， 有 关内 容 将 在 第 5 章 曾 述 。 在 第 6.6 节 将 继续 讨论 聚 类 问题 。 


4.9 补充 读物 


Holte (1993) 对 1R 算 法 进行 了 彻底 的 研究 。1R 以 前 并 没有 真正 被 认为 是 一 种 机 器 学 习 
的 方法 ， 其 目的 是 要 证 明 用 于 评估 机 器 学 习 方 案 的 许多 实际 数据 集 的 结构 非常 简单 ， 而 那些 
被 赋 子 了 高 能 量 的 归纳 推论 法 作用 在 简单 数据 集 上 时 ， 就 像 杀 鸡 使 用 宰 牛 刀 。 当 一 个 简单 规 
则 可 行 时 为 什么 还 要 使 用 复杂 的 决策 树 ? 巴西 的 Lucio de Souza 和 新 西 兰 的 Len Trigg 提 出 了 
为 每 一 个 类 产生 一 个 简单 规则 的 方法 ， 这 种 方法 被 誉 为 超 管 道 (hyperpipes) 法 。 一 个 异常 简 
单 的 算法 的 优势 在 于 处 理 速度 非常 之 快 ， 甚 至 在 属性 的 数量 庞大 时 ， 所 以 ， 是 一 个 十 分 可 行 
的 方案 。 

贝 叶 斯 是 18 世 纪 英 国 的 哲学 家 ， 他 在 “运用 可 能 性 学 说 解决 问题 ” 上 ， 创 立 了 他 的 概率 
理论 ， 发 表 在 伦敦 皇家 科学 哲学 刊物 (Philosophical Transactions of the Royal Society of 
London) 〈 贝 叶 斯 ，1763 年 ) ; 从 那 时 起 ， 用 他 的 名 字 命名 的 规则 已 经 成 为 概率 理论 的 基石 。 
在 实际 中 贝 叶 斯 规则 应 用 的 难点 是 先 验 概率 的 分 配 问 题 。 一 些 被 誉 为 贝 叶 斯 专家 的 统计 学 家 ， 
把 贝 叶 斯 规则 当 作 真 理 ， 并 且 竖 持 认 为 必须 尽力 正确 地 估计 先 验 概率 一 一 尽管 这 些 估计 通常 
是 主观 的 。 而 另外 一 些 非 贝 叶 斯 学 家 ， 则 倾向 于 无 先 验 (priorfree) 分 析 ， 产 生 一 个 统计 的 
置信 度 区 间 ， 这 部 分 内 容 将 在 下 一 章 介绍 。 在 一 个 县 体 的 数据 集 上 ， 先 验 概 率 通常 相当 容易 
估计 ， 这 使 采用 贝 叶 斯 方法 进行 学 习 受 到 鼓励 。 由 朴素 贝 叶 斯 法 做 出 的 属性 独立 的 假设 是 一 
个 巨大 的 障碍 ， 然 而 ， 有 一 些 方 法 可 以 不 必 假 设 属性 独立 来 使 用 贝 叶 斯 分 析 。 结 果 模 型 称 为 
贝 叶 斯 网 络 (Bayesian networks) (Heckerman 等 ，1995 年 )， 有 关内 容 将 在 第 6.7 节 介绍 。 

贝 叶 斯 技术 在 被 机 器 学 习 研 究 者 (如 Langley 等 ，1992 年 ) 采纳 以 前 已 经 在 模式 识别 领域 
(Duda 和 Hart，1973 年 ) 应 用 20 年 了 ，Langley 和 Sage 在 1994 年 将 贝 叶 斯 法 用 于 存在 元 余 属 性 
的 数据 集 上 ，1995 年 John 和 Langley 将 贝 叶 斯 法 用 于 数值 属性 上 。 从 字面 上 看 ， 朴 素 贝 叶 斯 是 
一 个 简单 的 方法 ， 但 是 在 某 些 场合 ， 一 点 也 不 简单 。1998 年 McCallum 和 Nigam 研 究 出 专门 针 
对 文本 分 类 的 多 项 朴素 贝 叶 斯 模型 。 

Quinlan (1986 年 ) 发 表 了 经 典 的 决策 树 归纳 论文 ， 正 是 他 描述 了 基本 的 ID3 产 生 过 程 ， 
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在 本 章 中 对 这 个 算法 进行 了 开发 。 在 Quinlan (19934) 的 一 本 经 典 书 中 给 出 了 一 个 这 个 方法 
的 综合 描述 ， 包 括 C4.5 系 统 的 改进 ， 并 且 列 出 了 用 C 语 言 开 发 的 完整 的 C4.5 系 统 。Cendrowska 
(1987 年 ) 开发 了 PRISM， 也 是 他 推出 了 隐形 腿 镜 数据 集 。 

关联 规则 的 提出 和 讨论 出 现在 数据 库 文献 而 不 是 机 器 学 习 文 献 中 。 对 关联 规则 的 研究 着 
重 于 如 何 处 理 数 量 庞大 的 数据 ， 而 不 是 在 有 限 数 据 集 上 对 算法 的 测试 和 评估 方法 的 研究 。 本 
章 介 绍 的 Apriori 算 法 是 由 Agrawal 和 他 的 同事 (Agrawal 等 1993 年 ， 1993 年 ; Agrawal 和 Srikant， 
1994 年 ) 共同 开发 的 。Chen 等 (1996 年 ) 出 版 了 一 个 关联 规则 数据 控 据 的 调查 报告 。 

在 很 多 标准 的 统计 书 中 描述 了 线性 回归 法 ，Lawson 和 Hanson (1995 年 ) 介绍 了 一 个 特别 
成 熟 的 处 理 方 法 。 在 20 世 纪 60 年 代 ， 使 用 线性 模型 进行 分 类 引起 了 人 们 的 极 大 关注 ，Nilsson 
(1965) 提供 了 一 个 极 好 的 参考 书 利 ， 他 将 线性 边界 阐 值 单位 (linear threshold unit) 定义 
为 判定 一 个 线性 函数 的 结果 是 否 大 于 或 者 小 于 0 的 一 个 二 元 测试 ， 并 将 线性 机 器 (linear 
machine) 定义 为 一 系列 的 线性 函数 ， 每 一 个 类 对 应 一 个 线性 函数 ， 将 线性 函数 在 一 个 未 知 样 
本 上 所 得 到 的 值 进行 比较 ， 其 中 最 大 值 所 对 应 的 类 就 是 这 个 样本 的 预测 类 别 。 很 久 以 前 ， 一 
本 有 影响 的 书 (Minsky 和 Papert，1969 年 ) 中 声明 感知 器 存在 基本 原理 上 的 局 限 ， 所 以 没有 
受到 重视 。 然 而 一 些 更 复杂 的 线性 函数 系统 以 神经 网 络 的 形式 在 近 几 年 得 到 重新 发 展 ， 第 6.3 
节 将 具体 讨论 神经 网 络 。1989 年 Nick Littlestone 在 他 的 博士 论文 中 介绍 了 Winnow 算 法 
(Littlestone ，1988 年 ，1989 年 )。 最 近 多 反馈 的 线性 分 类 法 已 经 在 一 个 称 为 堆栈 (stacking ) 
的 操作 上 找到 新 的 应 用 领域 ， 它 结合 了 其 他 机 器 学 习 算法 的 结论 ， 有 关内 容 将 在 第 7 章 介 绍 
(Wolpert, 19924). Friedman (1996 年 ) 讨论 了 成 对 分 类 技术 ; Fiirnkranz (2002 年 ) 对 此 
展开 了 进 -- 步 研究 ，Hastie 和 Tibshirani (1998 年 ) 将 分 类 技术 扩展 ， 使 用 成 对 合并 预测 概率 。 

Fix 和 Hodges (1951 年 ) 首先 对 最 近邻 方案 进行 分 析 ，Johns (1961 年 ) 开创 了 最 近邻 法 
在 分 类 问题 方面 的 使 用 。Cover 和 Hart (1967 年 ) 给 出 了 经 典 的 理论 结论 : 对 于 足够 大 的 数据 
集 ， 它 产生 的 误差 概率 不 会 超出 理论 最 小 值 的 两 倍 ; Devroye 等 (1996 年 ) 指出 k 最 近邻 法 是 
当 增 大 Kk 和 n 并 存在 kA/n 一 0 时 ， 将 逐渐 趋 于 最 佳 。 经 过 Aha (1992 年 ) 的 研究 努力 最 近邻 法 在 
机 器 学 习 领 域 受 到 重视 ,Aha 指 出 基于 实例 的 学 习 法 经 过 结合 干扰 样本 修剪 和 属性 加 权 东 以 后 ， 
与 其 他 机 器 学 习 方 法 相 比 ， 性 能 更 加 优越 。 我 们 将 在 第 6 章 中 介绍 。 

kD 树 数据 结构 是 由 Friedman 等 (1977 年 ) 开发 。 我 们 的 描述 紧 紧 遵循 了 Andrew Moore 在 
他 博士 论文 里 的 描述 ，Andrew 和 Omohundro (1987 年 ) 一 起 拓展 了 AD 树 在 机 器 学 习 领 域 的 使 
用 。Moore (2000 年 ) 讨论 了 一 些 成 熟 的 创建 球 树 的 方法 ， 这 些 方法 在 拥有 数 千 个 属性 的 数 
据 集 上 表现 优异 。 本 书 使 用 的 球 树 例子 是 从 卡 内 基 — 梅 隆 大 学 Alexander Gray 的 教学 笔记 上 摘 
取 的 。 在 第 4.7 节 最 后 部 分 讨论 小 节 中 提 到 的 投票 特征 区 间 是 由 Demiroz 和 Guvenir (19974) 

均值 算法 是 -一 个 经 典 的 技术 ， 有 很 多 有 关 的 描述 和 版 本 (如 Hartigan，1975 年 )。 我 们 所 
选用 的 使 用 球 树 取 代 kD 树 来 加 速 k 均 值 察 类 法 ， 是 由 Moore 和 Pelleg (2000 年 ) 在 他 们 的 X 均 值 
到 类 算法 中 开创 的 。 这 种 算法 包含 的 其 他 创新 将 在 第 6.6 节 介绍 。 
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评估 是 数据 挖 据 能 否 取 得 真正 进展 的 关键 一 环 。 我 们 已 经 见 到 了 许多 自 原始 数据 中 推出 
某 种 结构 的 方法 。 在 下 一 章 中 还 将 介绍 更 为 细致 的 新 的 方法 。 采 取 何 种 推论 方法 来 解决 某 一 
具体 问题 ， 需 要 对 不 同 的 推论 方法 进行 系统 的 比较 评估 。 评 估 并 不 像 看 上 去 那样 简单 。 

问题 在 哪里 ? 我 们 有 训练 集 数据 ， 当 然 可 以 观察 用 不 同 推论 方法 在 这 个 训练 集 上 所 得 的 
不 同 结果 。 然 而 ， 我 们 很 快 会 发 现 ， 在 训练 集 上 表现 好 的 绝 不 意味 着 在 独立 的 测试 集 上 会 有 
好 的 表现 。 我 们 需要 能 预测 在 实践 中 性 能 表现 的 评估 方法 ， 这 个 预测 基于 所 能 得 到 的 任何 数 
据 上 的 实验 。 

当 数据 来 源 很 充足 时 ， 这 并 不 是 问题 。 只 要 在 一 个 大 的 训练 集 上 建 模 ， 然 后 在 另外 一 个 
大 的 测试 集 上 验证 。 虽 然 数据 挖掘 时 常 牵 涉 到 一 些 大 型 的 数据 库 ， 特 别 是 在 市 场 、 销 售 和 客 
户 支持 应 用 当中 ， 但 是 也 经 常 出 现 数据 (有 质量 的 数据 ) 匮乏 的 情形 。 比 如 在 第 1 章 (第 1.3 
节 ) 中 提 到 的 海面 序 浊 应 用 , 训练 数据 必须 经 过 人 工 探测 和 标记 方 可 使 用 , 这 是 一 个 非常 专业 ， 
且 劳 动力 密集 的 过 程 。 甚 至 在 信用 卡 申 请 (第 1.3 节 ) 实例 中 , 只 有 -一 千 个 适当 的 训练 实例 。 在 
供电 量 数据 库 ( 第 1.3 节 ) 中 ， 如 追 漳 到 15 年 前 , 共有 5000 天 ， 但 其 中 只 有 15 个 圣诞 节 、15 个 感恩 
节 、4 个 2 月 29 昌 和 4 个 总 统 大 选 日 。 在 电子 机 械 诊断 应 用 (第 1.3 节 ) 中 ， 虽 有 20 年 的 使 用 记录 ， 
但 是 其 中 只 包含 了 300 个 可 用 的 故障 例子 。 虽 然 市 场 和 销售 应 用 (第 1.3 节 ) 肯 定 涉 及 到 大 型 数据 
库 , 但 是 许多 其 他 应 用 时 常 依赖 于 一 些 专家 的 专业 特长 ， 以 至 于 数据 缺乏 。 

基于 有 限 数据 的 预 而 性 能 评估 是 一 个 有 趣 的 问题 ， 仍 存 争议 。 预 测 性 能 评估 有 许多 不 同 
的 技术 ， 其 中 重复 交叉 验证 (repeated cross-validation) 在 实践 中 或 许 是 适合 大 部 分 有 限 数 据 
情形 的 评估 方法 。 比 较 不 同 的 机 器 学 习 方法 运用 在 某 个 给 定 问 题 上 也 并 非 易 事 ， 需 要 用 统计 
学 狂 试 来 确定 那些 明显 的 差异 并 非 是 偶然 发 生 的 。 到 目前 为 止 ， 我 们 默认 所 要 预测 的 是 对 测 
试 实例 进行 正确 分 类 的 能 力 。 然 而 ， 在 某 些 情况 下 ， 却 要 涉及 到 预测 分 类 概率 而 非 类 别 本 身 ， 
男 外 一 些 情况 需要 预测 数值 而 不 是 名 词性 属性 值 。 需 要 视 不 同情 形 而 使 用 不 同 的 方法 。 接 下 
来 我 们 要 看 一 下 成 本 问题 。 在 大 多 数 的 实际 数据 挖 据 情 形 中 ， 错 误 分 类 误差 的 成 本 是 由 误差 
类 型 所 决定 的 ， 如 错误 是 将 -一 个 肯定 的 例子 错误 地 归 类 为 否定 的 ， 还 是 反 过 来 (将 否定 的 例 
子 归 类 为 肯定 的 一 一 译 者 注 )。 在 做 数据 挖 据 及 性 能 评估 时 ， 这 些 成 本 的 考虑 是 非常 重要 的 ， 
所 幸 的 是 采用 一 些 简单 的 技术 能 使 大 多 数 的 学 习 方案 具有 成 本 敏感 性 ， 而 不 必 探 究 算法 本 身 。 
最 后 ， 从 整体 上 看 ， 评 估 有 着 迷人 的 哲学 含义 ， 哲 学 家 们 已 对 如 何 评估 科学 理论 辩论 了 2000 
年 ， 此 议题 亦 是 数据 挖掘 的 - -个 焦点 ， 因 为 从 本 质 上 来 看 ， 我 们 挖掘 的 是 数据 “理论 ”。 


5.1 训练 和 测试 


对 于 分 类 问题 ， 自 然 是 采用 误差 率 (eror rate) 来 衡量 一 个 分 类 器 的 性 能 。 分 类 器 对 每 
个 实例 进行 类 预测 ， 如 果 预 测 正 确 ， 则 分 类 成 功 ， 反 之 则 分 类 错误 。 误差 率 就 是 所 有 错误 在 
整个 实例 集中 所 占 的 比率 。 误 差 率 是 对 分 类 器 总 体 性 能 的 一 个 衡量 。 

当然 ， 我 们 感 兴趣 的 是 分 类 器 对 未 来 新 数据 的 分 类 效果 ， 而 非 旧 数据 。 训 练 集中 每 个 实 
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例 的 类 都 是 已 知 的 ， 正 因为 如 此 才能 用 它 进行 训练 。 通 常 我 们 不 是 对 学 习 这 些 实例 的 分 类 感 
兴趣 ， 除 非 是 要 进行 数据 整理 而 非 预 测 。 和 问题 是 在 旧 数 据 集 上 得 出 的 误差 率 是 否 可 以 代表 在 
新 数据 集 上 的 误差 率 ? 答案 是 否定 的 ， 如 果 分 类 器 是 用 人 旧 数 据 集训 练 出 来 的 。 

这 是 个 令 人 惊讶、 亦 是 非常 重要 的 事实 。 分 类 器 对 训练 集 进 行 分 类 而 得 出 的 误差 率 并 
不 能 很 好 反映 分 类 器 未 来 的 工作 性 能 。 为 什么 ?因为 分 类 器 正 是 通过 学 习 这 些 相同 的 训练 数 
据 而 来 的 ， 因 此 该 分 类 器 在 此 训练 数据 集 上 进行 的 任何 性 能 评估 结果 都 是 乐观 的 ， 而 且 是 绝 
对 乐观 。 

我 们 曾 在 劳工 关系 数据 集中 见 过 这 样 的 例子 。 图 1-3b 是 由 训练 数据 直接 产生 的 ， 图 1-3a 
则 是 经 过 修剪 处 理 的 。 若 用 训练 数据 对 二 者 进行 评估 ， 前 者 似乎 更 准确 。 但 车 用 独立 的 测试 
数据 对 二 者 进行 评估 ， 前 者 的 表现 很 可 能 会 不 如 后 者 ， 因 前 者 与 训练 数据 过 度 拟 合 。 根 据 在 
训练 数据 上 得 出 的 误差 率 ， 前 一 个 决策 树 比 后 一 个 决策 树 要 好 ， 但 这 并 不 能 反映 它们 将 来 在 
独立 的 测试 数据 上 的 表现 。 

用 训练 数据 进行 测试 所 产生 的 误差 率 称 为 重新 代入 误差 (resubstitution error)， 因 为 它 是 
将 训练 实例 重新 代入 由 这 些 训练 实例 而 产生 的 分 类 器 进行 计算 的 。 虽 然 它 不 能 可 靠 地 反映 分 
类 器 在 新 数据 上 真实 的 误差 率 ， 但 依然 是 有 参考 价值 的 。 

为 了 能 预测 一 个 分 类 器 在 新 数据 上 的 性 能 表现 ， 需 要 一 组 没有 参与 分 类 器 建立 的 数据 集 ， 
并 在 此 数据 集 上 评估 分 类 器 的 误差 率 。 这 组 独立 的 数据 集 叫 测试 集 (test set)。 必 须 假设 训练 数 
据 和 测试 数据 都 是 某 特定 问题 的 代表 性 样本 。 

在 某 些 情况 下 ， 测 试 数据 也 许 和 训练 数据 存在 着 明显 差别 。 例 如 ， 在 1.3 节 中 提 到 的 信用 
风险 问题 。 假 设 银行 现 有 来 自 纽约 和 佛罗里达 州 两 个 分 行 的 训练 数据 ， 银 行 想 用 其 中 的 一 个 
数据 集 来 训练 出 一 个 分 类 器 ， 然 后 看 看 此 分 类 器 用 在 内 布 拉 斯 加 州 新 分 行 结果 会 如 何 。 可 以 
将 佛罗里达 州 的 数据 作为 测试 数据 ， 来 评估 由 纽约 数据 训练 的 分 类 器 ; 同时 将 纽约 的 数据 作 
为 测试 数据 ， 来 评估 由 佛罗里达 州 数据 训练 的 分 类 器 。 如 果 在 训练 前 就 将 两 个 分 行 的 数据 合 
并 ， 在 测试 数据 上 的 性 能 评估 丽 怕 不 能 较 好 地 反映 此 分 类 器 将 来 用 于 另 一 个 完全 不 同 的 州 的 
分 类 性 能 。 

测试 数据 无 论 如 何不 能 参与 分 类 器 的 创建 ， 这 点 非常 重要 。 举 例 来 说 ， 有 些 学 习 方 案 包 
括 两 个 阶段 ， 第 一 阶段 是 建立 基本 结构 ， 第 二 阶段 是 对 结构 所 包含 的 参数 进行 优化 ， 这 两 个 
阶段 需要 使 用 不 同 的 数据 集 。 或 者 ， 先 用 训练 数据 尝试 多 种 方案 ， 然 后 用 新 的 数据 集 对 这 些 
分 类 器 进行 评估 ， 找 出 最 好 的 。 但 是 所 有 这 些 数据 都 不 可 用 于 估计 未 来 的 误差 率 。 这 就 是 人 
们 经 常 提 到 的 三 种 数据 集 : 训练 数据 、 验 证 数据 (validation data) 和 测试 数据 。 训 练 数据 用 
在 一 种 或 多 种 学 习 算 法 中 创建 分 类 器 ; 验证 数据 用 于 优化 分 类 器 的 参数 ， 或 用 于 选择 ( 参 


性 ， 验 证 数据 集 必 须 有 别 于 训练 数据 集 以 获得 较 好 的 优化 或 选择 阶段 的 性 能 ， 间 时 测试 数据 
集 也 必须 有 别 于 其 他 两 个 数据 集 以 获得 对 真实 误差 率 的 可 靠 估 计 。 

一 已 误差 率 已 定 ,可 以 将 测试 数据 合并 到 训练 数据 中 ， 由 此 产生 新 的 分 类 器 应 用 于 实践 中 。 
这 并 没有 错 ， 使 用 尽 可 能 多 的 数据 来 建立 分 类 器 ， 这 是 一 种 实践 中 常用 的 方法 。 重 要 的 是 误差 
率 不 能 源 自 于 这 些 数据 。 同样 , 一 旦 验证 数据 已 被 使 用 (也 许 是 用 于 选择 决定 最 好 的 学 习 方案 )， 
那么 可 以 将 验证 数据 合并 到 训练 数据 中 ， 使 用 尽 可 能 多 的 数据 重新 训练 学 习 方案 。 

如 果 数 据 源 充足 ， 一 切 都 设 有 问题 。 可 以 取 一 个 大 的 样本 用 来 训练 ， 取 另 个 不 同 、 且 
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独立 的 大 样本 数据 用 于 测试 。 假 设 这 两 个 样本 都 具有 代表 性 ， 那 么 由 测试 样本 得 出 的 误差 率 
将 反映 其 未 来 的 真实 性 能 。 一 般 来 说 ， 训 练 样本 越 大 ， 所 建 的 分 类 器 性 能 越 好 。 虽 然 当 训练 
样本 超过 定 的 限度 ， 性 能 提高 将 会 有 所 减缓 。 测 试 样本 越 大 ， 误 差 估计 越 准 确 。 误 差 估 计 
的 准确 性 可 从 统计 学 角度 进行 量化 ， 这 点 我 们 将 在 下 一 节 中 分 析 。 

问题 在 于 当 数 据 源 不 充足 时 。 在 许多 情况 下 ， 训 练 数据 必须 经 过 人 工 操作 分 类 获得 ， 测 
试 数据 亦 是 如 此 ， 使 估计 出 错 。 这 使 可 用 于 训练 、 验 证 和 测试 的 数据 量 非常 有 限 。 怎 样 才能 
最 好 地 利用 这 样 一 个 有 限 的 数据 集 ? 将 这 个 数据 集 当 中 的 一 部 分 数据 置 于 --- 旁 用 于 测试 称 为 
BB (holdout method)， 剩 余 的 数据 用 于 训练 (如 有 必要 可 再 留 部 分 用 于 验证 )。 这 里 出 现 
一 个 难题 : 要 得 到 … 个 好 的 分 类 器 需要 尽 可 能 多 的 数据 用 于 训练 ; 而 要 得 到 一 个 准确 的 误差 
估计 ， 也 需要 尽 可 能 多 的 数据 用 于 测试 。 我 们 将 在 5.3 节 和 5.4 节 回顾 现 有 的 解决 方法 来 解决 这 
个 难题 。 


5.2 预测 性 能 


假设 用 测试 集 进行 分 类 器 的 误差 测试 ， 得 到 一 个 误差 率 ， 为 25%。 在 这 一 节 中 实际 上 要 
谈论 的 是 成 功率 而 不 是 误差 率 ， 那 么 对 应 的 成 功率 是 75% 。 这 仅 是 一 个 估计 值 ， 那 目标 总 体 
真正 的 成 功率 是 多 少 昵 ? 当然 ， 预 计 应 接近 75% 。 但 到 底 有 多 接近 ? 5$% 以 内 ? 10% 以 内 ? 这 
个 答案 依赖 于 测试 数据 集 的 规模 。 一 般 来 说 ， 这 75% 的 成 功率 车 是 基于 10 000 个 实例 的 测试 
集 而 得 到 的 ， 它 的 可 信 度 要 高 于 基于 100 个 实例 而 得 到 的 。 但 到 底 高 多 少 ? 

为 了 回答 这 个 问题 ， 需 要 一 些 统 计 学 推理 。 在 统计 学 中 ， 一 连 串 不 是 成 功 便 是 失败 的 独 
WHE. RAAB APEX (Bernoulli process)。 抛 掷 硬 币 是 一 个 经 典 实例 。 每 次 抛掷 是 一 个 
独立 事件 。 假 使 总 是 预测 正面 出 现 ， 除 了 用 “正面 ”或 “反面 ”来 描述 ， 每 次 抛 扼 结 果 亦 可 
视 为 “成 功 ” 或 “失败 "。 假 设 硬币 正 、 反 面 是 有 偏差 的 ， 但 并 不 知道 正面 的 几率 有 多 大 。 如 
果 抛 搓 100 次 ， 其 中 75 次 是 正面 ， 便 拥有 了 一 个 与 上 述 在 测试 集 上 达 75 允 成 功率 的 分 类 器 极为 
相似 的 情况 。 应 该 怎样 描述 真正 的 成 功率 呢 ? 换 名 话说， 想像 存在 一 个 伯 努 利 程式 ， 一 个 有 
偏差 的 硬币 ， 它 的 真实 成 功率 为 p (但 是 未 知 的 )。 在 N 次 测试 中 ，5 次 是 成 功 的 : 这 样 观 察 到 
的 成 功率 便 是 /=S/N。 问 题 是 ， 这 对 于 了 解 真实 的 成 功率 p 有 何 帮 助 ? 

这 个 问题 的 答案 通常 被 表达 为 一 个 置信 和 度 区 间 (confidence interval)， 即 真实 成 功率 p 以 
某 个 特定 的 置信 度 存 在 于 某 个 特定 的 区 间 中 。 例 如 ， 如 果 观 察 到 N=1 000 次 测试 中 ， 存 在 
$=750 次 是 成 功 的 ， 这 表明 真实 成 功率 在 75% 左 右 。 但 到 底 有 多 接近 75%? 若 置信 和 度 为 80% ， 
真实 成 功率 p 则 在 73.2% 和 76.7% 之 间 。 如 果 观 察 到 N=100 次 测试 中 ， 存 在 S=75 次 是 成 功 的 ， 
这 亦 表 明 真 实 成 功率 在 75% 左 右 。 但 是 由 于 试验 次 数 较 少 ， 同 样 是 80% 的 置信 和 度 ， 真 实 成 功 
率 p 的 区 间 则 较 宽 ， 伸 展 为 69.1% 和 80.1% 之 间 。 

这 很 容易 定性 ， 但 如 何 来 给 它们 定量 呢 ? 推理 如 下 ， 真 实 成 功率 为 p 的 单 次 伯 努 利 测试 的 
平均 值 (mean) 和 方差 (variance) 分 别 为 P 和 p(1 -p)。 如 果 一 个 伯 努 利 程式 中 含有 AN 次 测试 ， 
那么 期 望 成 功率 f =S/N 是 一 个 平均 值 为 p 的 随机 变量 ， 而 方差 则 随 N 递 减 为 p(1 - p)/N。N 值 较 
大 时 ， 这 个 随机 变量 的 分 布 接近 于 正 态 分 布 。 这 些 都 是 统计 学 的 知识 ， 这 里 将 不 作 推导 。 

一 个 随机 变量 X， 平 均值 为 0， 落 人 某 个 置信 范围 宽度 为 2z 的 概率 为 

Pr[ —z<X< zj= c 


对 于 正 态 分 布 ， 大 多 数 统计 学 课本 的 背后 都 有 c 值 和 对 应 的 z 值 的 列表 。 但 是 这 种 传统 列 
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表 形 式 (与 此 ) 略 有 不 同 : 它们 给 出 的 是 随机 变量 X 将 落 在 某 范围 之 外 的 置信 度 ， 而 且 只 给 出 上 界 值 : 
Pr[X >z] 

这 称 为 单 边 (one-tailed) 概率 ， 因 它 只 涉及 整个 分 布 的 上 界 端 。 正 态 分 布 是 对 称 的 ， 因 

此 它 的 下 界 端的 概率 
Pr[X < -z] 
是 一 样 的 。 

表 5-1 给 出 -个 示例 。 同 其 他 的 正 态 分 布 表 一 样 ， 这 里 也 假设 随机 变量 X 的 平均 值 为 9， 方 
差 为 1。 或 者 ， 也 可 以 说 z 是 距离 平均 值 (有 多 少 个 ) 标准 差 的 衡量 。 因 此 ，Pr[X > z]=5% 意 味 
着 X 落 在 高 于 平均 值 1.65 个 标准 差 以 上 的 几率 是 5%。 由 于 分 布 是 对 称 的 ，X 落 在 距离 平均 值 
1.65 个 标准 差 以 外 (高 于 或 低 于 ) 的 几率 是 10%， 或 者 说 

Pr[ -1.65 < X «1.65]=90% 

现在 所 要 做 的 就 是 减 小 随机 变量 /， 使 它 的 平均 值 为 0， 并 将 方差 单位 化 。 为 此 我 们 减 去 平 

均值 ?并 除 以 标准 差 VpG- p)/N 。 从 而 得 到 





Pr zl=c 


< dP < 
ypa- p)/N 


表 5-1 正 态 分 布 的 置信 边界 


Pr[X >z] 

0.1% 3.09 
0.5% 2.58 

1% 2.33 

5% 1.65 
10% 1.28 
20% 0.84 
40% 0.25 


以 下 是 得 到 置信 边界 (confidence limits) 的 过 程 。 对 于 某 一 给 定 的 置信 度 值 c, 在 表 5-1 中 查 


到 相应 的 z 值 。 在 查 表 之 前 先 用 1 减 去 c ， 再 将 结果 除 以 2。 如 此 ，c = 90% 则 要 用 5% 在 表 中 查 
找 。 中 间 置 信 度 可 用 线性 内 插 法 。 然 后 将 上 面 的 不 等 式 写成 等 式 ， 再 将 其 转换 为 p 的 表达 式 。 
最 后 一 步 涉 及 到 解 二 次 方程 。 虽 然 不 难 解 ， 但 得 出 的 却 是 一 个 看 似 恐 怖 的 置信 边界 表达 式 : 


Sea I ELZ z? 
p[i N Eei l£) 





表达 式 中 的 + 符号 给 出 两 个 p 值 ， 分 别 代 表 置 信 上 界 和 下 界 值 。 虽 然 公 式 看 起 来 有 点 复 ， 


Ax, 但 在 实际 应 用 中 并 不 太 难 。 


用 这 个 公式 可 得 到 前 面 例 子 中 提 到 的 真实 成 功率 数值 。 设 定 f =75%, N = 1000, c = 80% 
(因此 z = 1.28)， 得 到 p 值 区 间 [0.732, 0.767]. 4N= 100， 在 相同 的 置信 度 下 ， 可 得 到 p 值 区 间 : 
[0.691, 0.801]。 要 注意 的 是 ， 正 态 分 布 的 假设 只 有 在 N 值 较 大 时 (比如 N >100) 才 有 效 。 因 此 ，， 


当 f=75%, N = 10 时 得 到 置信 边界 为 [0.549, 0.881] ， 这 个 结论 是 应 有 所 保留 的 。 
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5.3 交叉 验证 


现在 来 萎 虚 当 训 练 和 测试 数据 数量 有 限时 该 如 何 处 理 。 旁 置 法 保留 -- 定 数量 的 数据 作为 
测试 用 ， 剩 余 的 数据 用 于 训练 (如 有 需要 可 再 留 一 部 分 数据 用 于 验证 )。 在 实践 中 ， 一 般 保留 
分 之 一 的 数据 由 于 测试 ， 而 剩余 的 三 分 之 二 用 于 训练 。 

当然 ， 也 许 不 巧 : 用 于 训练 (或 测试 ) 的 样本 不 具 代 表 性 。-- 般 ， 你 无 法 说 -个 样本 具 
有 或 不 县 有 代表 性 ， 但 有 个 简单 的 检测 方法 值得 -- 试 。 每 个 类 在 整个 数据 集中 所 占 的 比例 在 
训练 集 和 测试 集中 也 应 体现 出 相应 的 比例 。 如 果 某 一 类 的 样本 不 巧 在 训练 集中 -一 个 也 没有 ， 
很 准 想象 由 这 样 的 训练 集训 练 出 来 的 分 类 器 将 来 对 属于 这 -一 类 的 样本 数据 进行 分 类 时 会 有 好 
的 表现 。 更 粳 糕 的 是 ， 由 于 训练 集中 没有 属于 这 一 类 的 实例 ， 从 而 使 得 这 个 类 不 可 避免 地 在 
测试 集中 过 多 地 出 现 ! 因此 ， 在 随机 取样 时 必须 确保 在 训练 集 和 测试 集中 每 个 类 各 自 应 有 的 
比例 。 这 个 过 程 叫 分 层 (stratification )， 我 们 还 会 提 到 分 层 旁 图 (stratified holdout)。 虽 然 很 
有 必要 进行 分 骂 ， 但 分 层 只 能 为 防范 训练 集 和 测试 集 数据 的 样本 代表 性 不 -- 致 提供 … 个 基本 
的 安全 措施 。 

-个 更 为 通用 的 方法 来 减少 由 于 旁 置 法 取样 而 引起 的 任何 偏差 ， 就 是 重复 整个 过 程 。 用 
不 同 的 随机 样本 重复 进行 几 次 训练 和 测试 。 每 次 迭代 过 程 中 ， 随 机 抽取 一 个 特定 的 比例 CEL 
如 :分 过 :) 的 数据 进行 训练 ， 也 可 能 经 过 分 层 处 理 ， 剩 余 的 数据 用 于 测试 。 将 每 次 不 同 适 
代 过 程 中 所 得 的 误差 率 进 行 平均 得 到 -个 综合 误差 率 。 这 就 是 重复 旁 轿 法 (repeated holdout 
method) 的 误差 率 估计 。 

尔 也 许 会 著 虑 在 单 次 旁 置 的 过 程 中 ， 交 换 训练 集 和 测试 集 的 角色 ， 即 用 测试 集 数 据 进行 
训练 并 用 训练 集 数据 进行 测试 ， 然 后 将 两 次 不 同 结果 平均 一 下 ， 以 此 来 减少 训练 集 和 测试 集 
数据 代表 性 不 … 致 所 产生 的 影响 。 不 率 的 是 ， 只 有 当 训 练 集 和 测试 集 数 量 比例 为 50:50 时 才 似 
平 真正 合理 ， 可 这 个 比例 通常 不 太 理 想 ， 还 是 要 用 半数 以 上 的 数据 进行 训练 效果 比较 好 ， 即 
使 是 醋 沉 了 测试 数据 。 然 而 ， 一 个 简单 的 变异 方法 造就 了 个 重要 的 统计 学 技术 ， 即 所 谓 的 
区 义 验证 〈cross-validation )。 在 交叉 验证 中 ， 先 要 决定 一 个 固定 的 折 数 (number of folds), 
或 者 说 是 数据 分 区 数 。 假 设 定 为 二 折 ， 那 么 数据 将 被 大 致 均 分 成 个 分 区 ， 每 个 分 区 被 轮流 
用 于 副 试 而 剩余 的 则 被 用 于 训练 。 也 就 是 说 ， 用 三 分 之 二 的 数据 进行 训练 ， 三 分 之 一 的 数据 
进行 测试 ， 重 复 此 过 程 三 次 ， 从 而 每 个 实例 恰好 有 一 次 是 用 于 测试 的 。 这 就 是 所 谓 的 三 折 交 
又 验证 ， 若 同时 采用 了 分 层 技术 〈 经 常 如 此 )， 这 就 是 分 层 三 折 交 叉 验 证 (stratified threefold 
cross-validation). 

给 定 “个 数据 样本 ， 预 测 某 种 机 器 学 习 技术 误差 率 的 标准 方法 就 是 使 用 分 层 10 折 交叉 验 
证 。 数 据 被 随机 分 割 成 10 个 部 分 ， 每 一 个 部 分 中 的 类 比例 与 整个 数据 集中 的 类 比例 要 基本 … 
和 致 。 每 个 部 分 依次 轮流 被 旁 置 ， 其 余 十 分 之 九 的 数据 则 参与 某 一 个 学 习 方 案 的 训练 ， 而 旁 置 
的 数据 集 则 用 于 计算 误差 率 。 这 样 ， 学 习 过 程 共 进行 10 次 ， 每 次 使 用 不 同 的 训练 集 (含有 许 
多 相同 数据 )。 最 后 ， 将 10 个 误差 率 估计 值 平均 而 得 出 一 个 综合 误差 估计 。 

为 什么 是 10 次 ? 经 过 大 量 的 试验 ， 使 用 大 量 的 数据 集 ， 采 用 不 同 的 学 习 技 术 ， 表 明 10 折 
正 是 获得 最 好 的 误差 估计 的 恰当 选择 ， 而 且 也 有 -- 些 理论 根据 可 以 证 明 这 一点 。 虽 然 这 个 论 
点 还 不 是 最 后 的 论断 ， 在 机 器 学 习 和 数据 挖掘 领域 有 关 什 么 才 是 最 好 的 评估 方案 的 问题 至 今 
还 持续 着 激烈 的 争辩 ， 但 是 10 折 交叉 验证 法 在 实践 中 被 认为 是 标准 方法 。 试 验 还 证 明 采 用 分 
层 技 术 能 使 结果 稍 有 改进 ， 因 此 当 数 据 集 数 量 有 限时 ， 分 层 10 折 交叉 验证 法 被 当 作 标 准 评估 
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技术 。 值 得 注意 的 是 ， 无 论 是 在 分 层 或 是 进行 10 折 分 割 时 都 不 必 很 严格 ， 只 要 能 将 数据 集 分 
割 成 大 致 相等 的 10 个 部 分 、 每 部 分 中 各 个 类 的 比例 基本 恰当 就 可 以 了 。 统 计 评估 不 是 一 门 精 
确 的 科学 。 另 外 ，10 折 也 并 非 是 有 魔力 的 ，5 折 或 20 折 交叉 验证 似乎 也 相差 无 几 。 

为 了 得 到 可 靠 的 误差 估计 ， 单 次 的 10 折 交叉 验证 恐怕 还 不 够 。 采 用 相同 的 学 习 方 案 ,在 
相同 的 数据 集 上 进行 不 同 的 10 折 交叉 验证 ， 常 常会 得 到 不 同 的 结果 ， 这 是 由 于 在 选择 确定 折 
本 身 时 受到 随机 变化 的 影响 。 分 层 技术 可 减少 变化 ， 但 不 能 完全 消除 随机 变化 。 当 需要 一 个 
准确 的 误差 估计 时 ， 标 准 的 程序 是 重复 10 次 交叉 验证 一 一 即 10 次 10 折 交叉 验证 ， 然 后 取 其 平 
均值 。 这 将 使 原始 数据 中 十 分 之 九 的 数据 被 代入 学 习 算 法 中 100 次 。 可 见 ， 获 得 好 的 测试 结果 
是 一 项 计算 密集 型 的 任务 。 


5.4 其 他 估计 法 


10 折 交叉 验证 是 衡量 一 种 学 习 方 案 使 用 在 某 一 数据 集 上 的 误差 率 的 标准 方法 ， 为 得 到 可 
靠 的 结果 ， 建 议 使 用 10 次 10 折 交叉 验证 。 除 此 之 外 ， 还 有 许多 其 他 方法 可 行 ， 其 中 两 个 特别 
普及 的 方法 就 是 留 - (leave-one-out) 交 又 验证 和 自 引 导 法 (bootstrap). 


5.4.1 留 一 法 


留 一 (leave-one-out) 交叉 验证 其 实 是 n 折 交叉 验证 ， 其 中 是 数据 集 所 含 实例 的 个 数 。 每 
个 实例 依次 被 保留 在 外 ， 而 剩余 的 所 有 实例 则 用 于 学 习 方 案 的 训练 。 它 的 评估 就 是 看 对 那个 
保留 在 外 的 实例 分 类 的 正确 性 ，1 或 0 分 别 代表 正确 或 错误 。 所 有 mn 个 评估 结果 (数据 集中 的 每 
个 成 员 各 产生 一 个 结果 ) 被 平均 ， 得 到 的 平均 值 便 是 最 终 的 误差 估计 。 

这 个 方法 之 魅力 所 在 有 两 个 方面 。 第 一 ， 每 次 都 使 用 尽 吕 能 多 的 数据 参与 训练 ， 从 而 增 
加 了 获得 正确 分 类 器 的 机 会 。 第 二 ， 这 个 方法 具有 确定 性 : 无 需 随 机 取样 。 没 有 必要 重复 10 
次 或 任何 重复 操作 ， 因 为 每 次 的 结果 都 将 是 一 样 的 。 然 而 ， 它 的 计算 成 本 也 是 相当 高 的 ， 整 
个 学 习 过 程 必须 执行 hn 次， 这 对 一 些 大 的 数据 集 来 说 通常 是 不 可 行 的 。 不 过 、 留 一 法 似乎 是 提 
供 了 -个 机 会 ， 即 最 大 限度 地 从 一 个 小 的 数据 集 里 获得 尽 可 能 正确 的 估计 。 

但 是 除了 计算 成 本 高 之 外 ， 留 一 交 又 验证 法 还 有 一 个 缺点 。 它 不 但 不 能 进行 分 层 
(stratified )， 更 精 的 是 它 一 定 是 无 层 样 本 。 分 层 是 使 测试 集 数据 拥有 恰当 的 类 比例 ， 当 测试 集 
中 只 含 一 个 实例 时 ， 分 层 是 不 可 能 实现 的 。 举 个 例子 ， 虽 然 极 不 现实 ， 但 却 非常 戏剧 性 地 描 
述 了 由 此 而 引起 的 问题 。 想 象 有 - -个 完全 随机 的 数据 集 ， 含 有 数量 相等 的 两 个 类 。 面 对 一 个 
随机 数据 ， 所 能 给 出 的 最 好 预测 便 是 预测 它 属于 多 数 类 (majority class)， 其 真实 的 误差 率 是 
50%。 但 在 留 -法 的 每 -- 个 折 里 ， 与 测试 实例 相反 的 类 (在 训练 集 上 ) 是 多 数 类 ， 因 此 每 次 
预 油 总 是 错 的 ， 从 而 导致 估计 误差 率 达 100%1 


5.4.2 自 引 导 法 

第 二 种 要 描述 的 估计 方法 是 自 引 导 法 (bootstrap )， 它 是 基于 统计 学 的 放 回 抽样 
(sampling with replacement) 程序 。 先 前 ， 一 个 样本 一 旦 从 数据 集中 被 取出 放 和 训练 集 或 测试 
集 ， 它 就 不 再 被 放 回 。 也 就 是 说 ， 一 个 实例 一 旦 被 选择 一 次 ， 就 不 能 再 次 被 选择 。 这 就 像 踢 
足球 组 队 、 不 能 选 同 一 个 人 两 次 。 但 是 数据 集 实例 不 是 人 ， 大 多 数 的 学习 方 案 还 是 可 以 使 用 
相同 实例 两 次 的 ,并 且 在 训练 集中 出 现 两 次 会 产生 不 同 的 学 习 结果 。( 数 学 行家 将 会 注意 到 ， 
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Rel) 个 对 象 可 以 出 现 一 次 以 上 ， 我 们 其 实 不 是 在 谈论 “ 集 "。) 

自 引 导 法 的 想法 是 采取 放 回 抽样 数据 集 的 方法 来 形成 训练 集 。 我 们 将 阐述 一 个 特例 ， 它 
非常 神奇 ( 原因 很 快 会 显现 ) 称 为 0.632 自 引导 。 一 个 拥有 n 个 实例 的 数据 集 进行 了 n 次 的 放 回 
抽样 ， 从 而 形成 了 另 一 个 拥有 n 个 实例 的 数据 集 。 因 为 在 第 二 个 数据 集中 会 (几乎 肯定 会 ) 有 
- 些 重复 实例 ， 那 么 在 原始 的 数据 集中 必 有 部 分 实例 未 被 抽样 ， 我 们 将 用 这 些 实例 作为 测试 
实例 。 

某 个 具体 实例 不 被 抽样 到 训练 集中 的 几率 是 多 少 昵 ?每 次 被 抽取 的 概率 是 1/n ， 所 以 不 被 
抽取 的 概率 是 1 - 1/n 。 根 据 抽取 次 数 (mn 次)， 将 这 些 概 率 相 乘 ， 得 到 


(1 一 1) =e | = 0.368 
n 


(其 中 e 是 自然 对 数 的 基数 2.7183 ,不 是 误差 率 ! )。 这 给 出 了 某 个 有 具体 实例 不 被 抽取 到 的 几率 。 
因此 ， 对 … 个 相当 大 的 数据 集 来 说 ， 测 试 集 将 包含 约 36.8% 的 实例 ， 而 训练 集 将 包含 约 63.2% 
的 实例 (现在 你 该 知道 为 什么 叫 0.632 自 引 导 了 吧 )。 训 练 集中 包含 一 部 分 重复 实例 ， 总 容量 
是 n , 和 原始 数据 集 -- 般 大 。 

用 此 训练 集训 练 一 个 学 习 系 统 ， 并 用 测试 集 计算 误差 率 ， 得 到 的 将 是 一 个 对 真实 误差 率 
较为 翡 观 的 估计 值 。 这 是 因为 虽然 训练 集 的 容量 是 x,， 但 它 只 包含 了 63% 的 实例 ， 这 和 含有 
90% 实 例 的 10 折 交叉 验证 法 相 比 ， 不 是 很 理想 。 为 了 补偿 这 点 ， 将 测试 集 误 差 率 和 用 训练 集 
数据 计算 的 重新 代入 (resubstitution) 误差 率 组 合 在 一 起 。 如 前 所 述 ， 重 新 代 人 误差 率 是 对 真 
实 误差 率 的 一 个 过 于 乐观 的 估计 值 ， 当 然 不 能 单独 使 用 。 自 引导 法 将 它 和 测试 误差 率 组 合 在 
-起 ， 给 出 最 终 误差 率 估计 值 e 如 下 : 

e=0.632 x exyig 类 例 +0.368 X egi 

然后 ， 将 整个 自 引 导 过 程 重复 进行 几 次 ， 以 取得 不 同 的 放 回 取样 训练 集 ， 测 试 结果 取 平 
均值 。 

自 引导 方法 对 非常 小 的 数据 集 来 说 ， 也 许 是 最 佳 的 误差 率 估计 法 。 但 是 ， 就 像 留 一 交叉 
ZUE 一 样 、 自 引导 法 也 有 缺点 ， 可 以 通过 考虑 一 个 非常 特殊 、 人 为 假设 的 情况 来 描述 此 问 
题 。 实 际 上， 我 们 考虑 的 数据 集 是 一 个 包含 两 个 类 而 且 是 完全 随机 的 数据 集 。 对 任何 预测 规 
则 来 说 ， 它 的 真实 误差 率 都 是 50% 。 但 一 个 能 记 住 训练 集 的 方案 ,会 给 出 完美 的 100% 的 重新 
代入 评分 ， 以 致 ewgxwm = 0, 0.632 自 引 导 法 再 将 它 与 0.368 权 相 乘 ， 得 出 综合 误差 率 只 有 31.6% 
(0.632 x 50% + 0.368 x 0% ) ， 这 个 结论 未 免 过 于 乐观 了 。 


5.5 数据 挖掘 方案 比较 


经 常 需要 对 解决 同 问题 的 两 种 不 同学 习 方 案 进 行 比较 ， 看 哪 一 种 更 适合 使 用 。 这 看 来 
似乎 很 简单 ， 用 交叉 验证 法 (或 其 他 合适 的 预计 方法 )， 也 许 重复 几 次 ， 然 后 选择 估计 误差 
率 较 小 的 方案 。 在 许多 实际 应 用 中 ， 这 已 是 相当 足够 了 ， 如 果 某 方案 在 一 具体 数据 集 上 的 估 
计 误 差 率 比 另 一 方案 低 ， 最 好 采用 前 者 的 模型 。 但 是 ， 有 时 差别 只 是 源 于 估计 错误 ， 在 某 些 
情况 下 重要 的 是 ， 我 们 要 确定 一 个 学 习 方案 对 某 个 具体 问题 的 解决 是 否 真 的 优 于 另 一 个 方 
案 。 这 是 对 机 器 学 习 人 研究 者 的 一 个 挑战 。 如 果 要 提出 一 个 新 的 学 习 算 法 ， 它 的 提议 者 必须 证 
明 新 算法 对 问题 的 解决 是 有 改进 的 ， 而 且 要 证 明 观 察 到 的 改进 不 只 是 估计 过 程 中 所 产生 的 偶 
然 结果 。 
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这 是 一 项 给 出 置信 边界 的 统计 试验 工作 ， 正 如 我 们 先前 谈 到 的 ， 根 据 已 给 出 的 测试 集 误 
差 率 来 预测 其 真实 性 能 。 假 设 有 无 限 的 数据 来 源 ， 则 可 以 用 大 量 的 数据 进行 训练 ， 然 后 再 用 
另 一 个 大 型 的 独立 测试 数据 集 进行 性 能 评估 ， 像 先前 一 样 得 到 置信 边界 。 但 是 ， 如 果 差 别 很 
显著 ， 必 须 确定 其 原由 不 是 因 碰 巧 使 用 某 个 具体 数据 集 进行 测试 而 引起 的 。 我 们 要 决定 一 个 
方案 从 整体 平均 上 来 看 比 另 一 个 好 还 是 差 ， 这 是 要 涵盖 能 从 这 个 领域 得 到 的 所 有 训练 集 和 测 
试 集 数据 。 训 练 集 数据 的 数量 当然 会 影响 性 能 ， 因 此 所 有 的 数据 集 大 小 要 一 致 : 实际 上 , 也 
可 用 不 同 大 小 的 数据 集 进行 重复 试验 以 得 到 一 条 学 习 曲 线 。 

此 刻 ， 假 定数 据 来 源 是 无 限 的 。 为 明确 起 见 ， 假 设 用 交叉 验证 法 来 进行 误差 估计 (其 他 
估计 法 ， 如 重复 交叉 验证 ， 也 是 同样 可 行 的 )。 可 以 提取 几 个 一 样 大 小 的 数据 集 ， 对 每 个 学 习 
方案 、 每 个 数据 集 用 交叉 验证 法 得 到 一 个 正确 率 估 计 ， 然 后 计算 出 正确 率 估 计 的 平均 值 。 每 
个 交叉 验证 试验 产生 个 不 同 的 、 独 立 的 误差 估计 ， 而 我 们 感 兴趣 的 是 这 个 平均 正确 率 要 涵 
盖 所 有 可 能 的 相同 规模 数据 集 ， 以 及 这 个 平均 值 是 否 在 使 用 某 一 方案 时 较 大 一 些 。 

从 这 个 角度 看 ， 我 们 正在 试图 判断 一 组 样本 的 平均 值 ， 是 否 明 显 地 高 于 或 低 于 另 一 组 样 
本 平均 值 ， 这 里 的 样本 是 指 对 于 从 某 个 领域 抽取 的 不 同 数据 集 进 行 交叉 验证 所 得 到 的 估计 值 。 
这 是 一 项 统计 学 工作 ， 称 为 测试 (t-test) 或 学 生 氏 1 测试 。 由 于 同样 的 交叉 验证 试验 可 以 用 于 
两 个 学 习 方案 ， 使 在 每 个 数据 集 上 的 试验 都 能 获得 配对 的 结果 ， 因 此 可 以 使 用 1 测试 的 这 种 更 
为 敏感 的 形式 ， 称 为 成 对 的 1 测试 (paired t-test). 

现在 需要 定义 一 些 符号 。 有 一 组 样本 xi, x, …, x ,是 使 用 某 种 学 习 方 案 进 行 连续 的 10 折 交 


又 验证 而 得 到 的 。 第 二 组 样本 y , y, , …, yi， 是 使 用 另 -- 种 学 习 方案 进行 连续 的 10 折 交叉 验证 ， 


而 得 到 的 。 每 个 交叉 验证 估计 是 使 用 不 同 的 数据 集 (但 所 有 的 数据 集 大 小 相同 ， 且 来 源 于 同 


“领域 ) 而 产生 的 。 如 果 完 全 相同 的 交叉 验证 分 区 被 用 于 两 个 学 习 方案 ， 将 会 得 到 最 好 的 结 ， 
果 。 因 此 ,x 和 y 是 在 使 用 相同 的 交叉 验证 分 割 条 件 下 而 得 到 的 ，w 和 ys, 也 是 如 此 ， 依 此 类 推 。 


第 一 组 样本 的 平均 值 用 x 来 表示 ， 第 二 组 用 了》 来 表示 。 我 们 要 试图 判定 和 了 是 否 有 显著 的 
差别 。 


如 果 样 本 足够 ， 独 立 样 本 (xi, x; ，…, x ) 的 平均 值 C) 应 呈正 态 (也 是 高 斯 ) 分 布 ， 


尽管 这 个 分 布 是 潜在 于 样本 本 身 的 。 称 真实 的 平均 值 为 n。 如 果 知 道 正 态 分 布 的 方差 ， 那 么 可 


将 其 平均 值 降 为 0 并 将 方差 单位 化 ， 给 出 样本 平均 值 ( x ) 就 能 得 到 A 的 置信 边界 。 可 是 , 方 


差 是 未 知 的 ， 唯 一 的 办 法 就 是 从 样本 组 中 将 其 估计 出 来 。 


这 并 不 难 ， 三 的 方差 估计 可 以 将 由 样本 xz， …, x 计算 而 来 的 方差 ( 称 0: ) 除 以 k 而 得 ， 
到 。 但 是 我 们 不 得 不 估计 方差 这 个 事实 ， 多 少 使 结果 有 点 变化 。 可 用 下 列 公式 将 的 分 布 的 


平均 值 降 为 0 并 将 方差 单位 化 
X-H 
oik 


因为 方差 只 是 估计 值 ， 这 不 能 算是 正 态 分 布 (虽然 当 k 值 足够 大 时 呈现 出 正 态 分 布 )。 然 





而 ， 它 大 一 种 称 为 K- 1 自由 度 的 学 生 氏 分 布 。 在 实践 中 这 意味 着 要 使 用 学 生 氏 分 布 的 置信 区 ， 
间 表 ， 来 代替 原先 的 正 态 分 布置 信 区 间 表 。 表 5-2 列 出 了 自由 度 为 9 度 时 (这 是 使 用 10 折 交叉 
给 证 法 平均 所 应 当 用 的 正确 度数 ) 的 置信 边界 。 如 果 将 它 与 表 5-1 比 较 ， 你 会 发 现 学 生 氏 分 布 . 
稍 许 保守 一 点 。 对 于 “个 给 定 置 信和 度 ， 学 生 氏 分 布 区 间 稍 宽 ， 这 正 反映 了 不 得 不 进行 方差 估 ， 
计 所 带 来 的 不 确定 性 因素 。 不 同 的 自由 度 有 不 同 的 列表 。 如 果 自 由 度 超过 100 度 ， 学 生 氏 分 布 ， 





A 
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与 正 态 分 布 的 置信 边界 非常 接近 。 和 表 5-1 一 样 ， 表 5-2 中 的 数值 亦 是 “ 单 边 ”置信 区 间 。 

BH EEA XY (都 是 x 个 样本 的 平均 值 ) 是 否 相 等 ， 我 们 来 考虑 每 组 对 应 的 观察 点 
之 间 的 差 值 4,，d; =x, 一 》。 这 样 考虑 是 合理 的 ， 因 为 这 些 观 察 点 都 是 成 对 的 。 这 些 差 值 的 平 
均值 下 是 两 个 平均 值 (XY) 之 间 的 差 ，d = 了》 了。 和 平均 值 本 身 一 样 ， 平 均值 差 值 也 是 
一 1 自由 度 的 学 生 氏 分 布 。 如 果 平均 值 相 等 ， 则 差 值 为 0 ( 称 为 零 假 设 (null hypothesis) ) ; 
如 果 有 显著 益 异 ， 则 差 值 将 和 0 有 着 显著 差距。 因此 ， 对 一 个 给 定 的 置信 和 度 ， 我 们 要 检查 其 真 
TAB Ae Re E a BRE 

表 5-2 9 自由 度 的 学 生 氏 分 布置 信 边 界 








Pr[X >z] z 
0.1% 4.30 
0.5% 3.25 
1% 2.82 
5% 1.83 
10% 1.38 
20% 0.88 
首先 要 减 小 差 值 ， 使 其 成 为 平均 值 为 0、 方 差 单位 化 的 变量 ， 被 称 为 :统计 量 (t-statistic): 
a 
t= 
Gy /K 
这 里 cz 是 差 值 样本 的 方差 。 然 后 决定 置信 度 ， 在 实践 中 通常 使 用 1% 或 5% 。 如 果 k 是 10， 置 


信和 边界 z 就 叮 从 表 5-2 中 得 到 ; 车 不 是 10， 应 采用 与 4 对 应 的 学 生 氏 分 布置 信 边 界 表 。 用 双边 
(two-tailed) 测试 比较 适当 ， 因 为 我 们 不 知道 xz 的 平均 值 是 否 可 能 大 于 y 的 平均 值 ， 或 是 相反 。 
因此 ， 对 于 1% 的 测试 ， 我 们 采用 表 5-2 中 0.5% 所 对 应 的 值 。 如 果 根 据 上 面 公式 得 到 的 ! 值 大 于 
z 或 小 上 -=， 便 排除 平均 值 相 等 的 零 假 设 ， 而 认为 这 两 个 学 习 方法 针对 这 个 领域 、 这 样 的 数 
据 集 容量 ， 人 确实 存在 明显 差别 。 

关于 这 个 方法 ， 有 两 个 观察 评论 值得 一 提 。 第 一个 是 技术 上 的 : 如 果 观 察 点 不 是 配对 的 
怎么 办 ? 换 名 话说， 如 果 由 于 某 种 原因 ， 无 法 让 每 个 学 习 方 案 在 同样 的 数据 集 上 进行 误差 评 
佑 怎么 办 ?如 果 每 个 方案 使 用 的 数据 集 个 数 不 同 怎么 办 ?这 些 情况 发 生 在 当 某 人 已 经 对 一 个 
方案 进行 了 评 佑 ， 并 公布 了 针对 某 个 具体 领域 、 某 个 具体 数据 集 容 量 的 几 种 不 同 的 估计 (或 
者 只 是 它们 的 半 均 值 和 方差 )、 而 我 们 想 要 将 其 与 其 他 不 同 的 方案 进行 比较 。 这 时 就 有 必要 使 
用 常规 的 不 配对 的 ! 测 试 。 如 果 如 我 们 所 假设 的 ， 平 均值 是 正 态 分 布 的 ， 那 么 平均 值 的 差 值 也 
是 正 态 分 布 的 。 我 们 计算 平均 值 的 差 值 ~， 来 代 赫 计 算 差 值 的 平均 值 de 当然 这 是 一 码 事 ， 
差 值 的 平均 值 等 十 平均 值 的 差 值 ， 但 是 差 值 a 的 方差 却 不 同 。 如 果 样本 x), x，，…, x 的 方差 
BOL. Hyny. oy 的 方差 是 0; ， 最 好 的 平均 值 差 值 的 方差 估计 是 

a o 


一 全 小 一 一 


k l 
就 是 这 个 方差 (更 准确 地 说 是 它 的 平方 根 ) 应 当 作为 上 述 ! 统计 量 计算 公式 中 的 分 母 。 查 询 学 
生 氏 分 布置 信 边 界 表 所 必需 的 自由 度 应 保守 地 选择 两 个 样本 中 最 小 的 一 个 。 从 本 质 上 看 ， 知 


道观 察 点 是 成 对 的 、 便 能 使 用 更 好 的 方法 估计 方差 ， 产 生 一 个 更 为 严格 的 置信 边界 。 
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第 一 点 评论 涉及 我 们 所 做 的 假设 ， 即 数据 来 源 是 无 限 的 ， 可 以 使 用 几 个 恰当 容量 的 独立 
数据 集 。 而 在 实践 中 ， 经 常 只 有 一 个 容量 有 限 的 数据 集 可 用 。 该 怎么 办 ? 可 将 整个 数据 集 分 


割 成 多 个 (也 许 10 个 ) 子 集 ， 对 每 个 子 集 分 别 进行 交叉 验证 。 但 是 ， 验 证 的 综合 结果 只 能 说 


明 一 个 学 习 方 案 是 否 适合 于 这 个 具体 容量 的 数据 集 ， 也 许 是 原始 数据 集 的 十 分 之 一 大 小 。 或 


者 ， 重 复 利 用 原始 数据 集 ， 比 如 在 每 次 交叉 验证 时 对 数据 集 进 行 不 同 的 随机 化 。S 然 而 ， 这 
样 得 出 的 交叉 验证 估计 不 是 独立 的 ， 因 为 它们 不 是 从 独立 的 数据 集 上 得 来 的 。 在 实践 中 ， 这 


意味 着 ， 被 判定 为 有 明显 差异 的 情形 实际 却 未 必 。 实 际 上 ， 增 加 样本 的 数目 k ( 即 交 义 验 证 的 
次 数 )， 最 终 将 导致 产生 明显 差异 ， 因 为 ! 统 计量 值 在 毫 无 限制 地 增加 着 。 


围绕 这 个 问题 ， 已 经 提出 了 多 种 对 于 标准 测试 的 修改 建议 都 只 是 直观 推断 ， 缺 生理 论 依 . 


据 。 其 中 有 一 种 方案 在 实践 应 用 中 似乎 不 错 ， 称 为 纠正 重复 取样 :测试 (corrected resampled t- 
test)。 假 设 使 用 重复 旁 置 法 来 代替 交叉 验证 法 ， 将 数据 集 进行 不 同 的 随机 分 割 k 钦 ， 获 得 对 两 
种 不 同学 习 方 案 的 正确 率 估计 。 每 次 用 个 实例 训练 ， 用 个 实例 测试 ， 差 值 4; 则 根据 在 测试 
数据 上 的 性 能 计算 而 来 。 纠 正 重 复 取 样 :测试 使 用 经 修改 的 统计 量 


和 标准 的 ! 统 计量 计算 方式 几乎 一 致 。 再 仔细 看 一 下 这 个 公式 ， 现 在 ! 值 不 再 容易 随 着 k 值 的 增 
加 而 增长 了 。 在 重复 交叉 验证 中 也 可 以 使 用 这 样 的 修改 统计 量 ， 其 实 这 只 是 重复 旁 置 法 的 一 
个 特例 ， 每 个 交叉 验证 所 使 用 的 测试 集 是 不 交 和 迭 的 。 对 于 重复 10 次 的 10 折 交叉 验证 ， 久 100， 


n/n, =0.1/0.9, o} 则 基于 100 个 差 值 。 


5.6 预测 概率 


这 … 节 的 目的 就 是 要 获得 最 大 预测 成 功率 。 如 果 对 测试 实例 的 预测 值 与 实际 值 -- 致 ， 预 
测 结果 视 为 正确 ， 如 果 不 一 致 ， 则 视 为 不 正确 。 不 是 黑色 就 是 白色 ， 不 存在 灰色 、 正 确 ,， 或 
者 不 正确 。 在 许多 情况 下 ， 这 是 最 妥当 的 观点 。 如 果 一 个 学 习 方案 被 真正 采用 ， 导 致 一 个 不 
是 正确 就 是 错误 的 预测 ， 成 功 与 否 便 是 一 个 合适 的 量度 。 有 时 称 为 0 - 1 损失 函数 (0-1 loss 
function) ,如 果 预 测 正确 , “损失” 为 0， 不 正确 即 为 1。 损 失 是 一 个 习惯 用 语 ， 虽 然 用 受益 
(profit) 作为 术语 是 比较 乐观 的 用 词 。 

其 他 情况 属于 模糊 边界 。 大 多 数 的 学 习 方案 能 将 预测 和 概率 结合 在 -… 起 (如 朴素 贝 叶 斯 
方案 )。 在 判定 正确 性 时 ， 考 虑 它 的 概率 是 很 自然 的 。 例 如 ， 一 个 概率 为 99% 的 正确 预测 多 半 
会 比 一 个 概率 为 51% 的 正确 预测 分 量 更 重 一 些 ; 如 在 一 个 二 类 情况 下 ，51% 的 正确 预测 并 不 
比 概率 为 51% 的 不 正确 预测 好 多 少 。 是 否 要 考虑 预测 的 概率 ， 要 看 具体 应 用 。 如 果 最 终 的 应 
用 只 是 要 一 个 结果 预测 ， 并 且 对 预测 值 可 能 性 的 现实 评估 也 不 会 有 任何 奖赏 ， 使 用 概率 似 平 
不 有 要。 如 果 预 测 值 还 要 进一步 处 理 ， 也 许 还 要 牵涉 到 人 为 的 评估 或 是 成 本 分 析 ， 其 至 或 许 要 
作为 第 二 阶段 学 习 过 程 的 输入 ， 那 么 进行 概率 考虑 也 许 是 很 合适 的 。 


日 ”这 个 方法 时 在 本 书 第 1 版 中 已 提倡。 
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5.6.1 二 次 损失 函数 

假设 个 单独 的 实例 有 k 种 可 能 的 结果 ， 或 者 说 k 种 可 能 的 类 。 对 某 个 给 定 的 实例 ， 学 习 
方案 对 这 些 类 提出 一 组 概率 向 量 p1, pr ，…, pe 这些 概 率 的 和 为 1 )。 这 个 实例 的 真实 结果 是 这 
些 可 能 的 类 中 的 某 -- 个 。 然 而 ， 更 方便 的 方法 是 将 其 表示 为 一 个 向 量 al, a;,…, a, ,其 中 第 i 个 
TCH (i 就 是 真实 的 类 ) 等 于 1， 其 他 都 等 于 0。 可 以 将 与 此 情况 相关 联 的 损失 表示 为 一 个 依赖 
于 向 量 p 和 向 量 a 的 损失 函数 。 

-个 常用 于 评估 概率 预测 的 标准 就 是 二 次 损失 函数 (quadratic loss function ): 


> (p, -a,) 

这 只 是 针对 单个 实例 ， 这 里 的 总 和 是 所 有 可 能 的 输出 总 和 ， 而 非 不 同 的 实例 的 总 和 。 其 
中 只 有 -个 a 值 等 于 1， 其 余 的 s 值 都 为 0。 因此， 总 和 里 面包 括 由 不 正确 预测 而 得 的 p? 和 由 正 
确 预测 而 得 的 (1 -p Y, 从 而 公式 可 以 转换 为 

1 一 2P + >, 局 
这 里 是 正确 的 类 。 当 测试 集 有 多 个 实例 时 ， 损 失 函 数 便 是 所 有 单个 实例 损失 函数 的 总 和 。 

这 里 存在 -个 有 趣 的 理论 事实 ， 当 真实 类 的 产生 存在 一 定 的 概率 性 时 ， 如 果 要 使 二 次 损 
失 函 数值 最 小 化 ， 最 好 的 策略 就 是 让 向 量 p 选 择 各 类 的 真实 概率 ， 即 p; =Priclass=i ]。 如 果真 
实 概率 已 知 ， 它 就 是 p 的 最 住 选择 。 如 果 不 知道 ， 寻 求 最 小 二 次 损失 值 的 系统 则 要 力争 得 到 对 
Priclass = 的 最 好 估计 并 将 其 作为 p, 值 。 

这 点 相当 容易 看 到 。 真 实 概率 表示 为 PoP pP» ， 则 p; = Prlclass = 让。 对 一 个 测试 实例 
的 二 次 损失 函数 的 期 望 值 可 以 重新 表达 如 下 : 

AY 0, -a,)']=> (ep) ]-22[7,4,]+ Efa; p 
=È (P - 27,7; +p) =} -p+ pa-p) 

第 一步 将 期 望 符 放 到 总 和 符号 里 面 并 将 平方 展开 。 第 一 步 p; E- PRR, a 的 期 望 值 就 
是 pi. HHH Ala, 不 是 0 就 是 1， 所 以 g = 4j,9; 的 期 望 值 也 等 于 p; 。 第 三 步 直 接 代 数 转换 。 要 
得 到 总 和 的 最 小 值 ， 很 明显 ， 就 是 使 p; = p; ， 这 样 平方 项 消失 ， 剩 下 的 只 有 掌控 实际 类 的 真 
实 分 布 的 方差 。 

误差 平方 最 小 化 在 预测 问题 上 已 有 很 长 的 一 段 历史 ， 二 次 损失 函数 促使 预测 器 选择 最 好 
的 概率 估计 ， 或 者 优先 选择 能 对 真实 概率 做 出 最 好 猜测 的 预测 器 。 另 外 ， 二 次 损失 函数 有 一 
些 有 用 的 理论 属性 ， 不 在 这 里 讨论 。 由 于 上 述 种 种 原因 ， 二 次 损失 函数 常 被 当 作 评 估 概 率 预 
测 成 功 的 标准 。 

5.6.2 信息 损失 函数 
另 一 个 较为 普遍 的 评估 概率 预测 的 标准 就 是 信息 损失 函数 (informational loss function): 
— log, p; 
其 中 ， 第 i 个 预测 是 正确 预测 。 这 实际 上 相当 于 一 个 负 的 对 数 似 然 函数 (log-likelihood 
function)， 是 经 logistic 回 归 优 化 的 函数 ， 曾 在 4.6 节 中 描述 过 。 它 用 位 数 (bit) 来 代表 所 需 信 
息 量 ， 这 个 信息 量 用 来 表示 实际 类 i 的 概率 分 布 pj, po …, p: 。 换 句 话说， 如 果 已 告诉 你 -个 概 
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率 分 布 、 革 人 必须 同 你 交流 实际 出 现 的 应 属 哪 一 个 类 ， 就 需要 对 信息 进行 编码 ， 所 需 尽 可 能 
有 效 的 位 数 (当然 总 是 可 以 用 更 多 的 位 数 )。 因 概率 总 是 小 于 1， 它 们 的 对 数 是 负数 ， 公 式 中 
的 减 号 使 结果 成 为 正 数 。 例 如 ， 一 个 二 类 问题 即 正面 或 是 反面 ， 每 个 类 的 概率 是 相等 的 ， 正 
面 出 现 的 位 为 1， 因 -log ;1/2 等 于 1。 

如 果真 实 概率 是 Popon pi ， 信 息 损失 函数 的 期 望 值 就 是 


-pi log, p, 一 P; log, p, <= Dp log, P, 
如 同一 次 损失 函数 ， 选 择 p, = p 将 表达 式 最 小 化 ， 表 达 式 变 成 真实 分 布 的 炳 : 
=p; log, pi ~ p} log, p; —---— pi log, px 


这 样 、 信 息 损 拓 函数 能 使 知道 真实 概率 的 预测 器 做 出 真实 的 预测 ， 并 促使 不 知 真 实 概率 
的 预测 器 做 出 最 好 的 猜测 。 

信息 损失 函数 还 可 用 赌博 现象 来 解释 。 想 象 对 测试 结果 进行 赌博 ， 给 每 个 可 能 的 类 一 个 
成 败 可 能 性 ,输赢 是 由 类 的 最 终 出 现 结果 决定 的 。 连 续 的 实例 就 像 连续 地 下 赌注 ， 一 个 接 一 
个 地 赢 〈 或 输 ) 、 在 整个 测试 集 上 的 赢 钱 总 额 的 对 数 就 相当 于 信息 损失 函数 值 。 在 赌博 中 ， 预 
测 尽 可 能 准确 的 成 败 可 能 性 是 要 付出 代价 的 ， 从 这 个 意义 上 说 ， 真 实 ( 预 测 ) 也 是 要 付出 代 
价 的 。 

信息 损失 函数 的 一 个 问题 是 如 果 赋 于 一 个 0 概率 给 实际 发 生 的 事件 ， 函 数值 就 成 负 无 穷 
大 。 好 像 在 赌博 中 连 衬 衣 都 输 了。 无 论 事 看 起 来 有 多 上 肖 定 ， 谨 慎 的 人 从 不 在 某 个 具体 事件 上 
下 爹 注 。 同 样 地 ， 谨 慎 的 预测 器 在 信息 损失 函数 操作 中 从 不 赋予 任何 结果 以 0 概率 。 当 没有 
任何 信息 可 以 提供 给 这 个 结果 作为 预测 基础 时 ， 便 导致 了 一 个 问题 称 为 零 频 率 问题 (zero- 
frequency problem)， 人 们 提出 了 不 同 的 解决 方案 ， 如 在 《4.2 节 ) 朴素 贝 叶 斯 中 讨论 过 的 拉 
兽 拉 斯 估计 器 。 


5.6.3 讨论 


如 有 果 你 在 从 事 概 率 预 测 的 评估 工作 ， 将 使 用 两 种 损失 函数 中 的 哪 一 种 呢 ? 这 是 个 好 问题 ， 
没有 致意 见 的 答案 ， 这 其 实 是 个 人 喜好 问题 。 它 们 都 在 做 损失 国 数 所 期 待 的 基本 工作 : 最 
大 限度 地 使 预测 器 正确 地 预测 真实 概率 。 但 是 它们 之 间 存 在 一 些 客观 的 区 别 ， 对 选择 会 有 参 
BME 

一 次 损失 函数 不 仅 考 虑 了 实际 发 生 事件 的 概率 ， 同 时 还 考虑 其 他 事件 的 概率 。 比 如 ， 一 
个 四 类 的 问题 ， 假 设 将 40% 的 概率 赋予 实际 遇 到 的 类 ， 而 将 剩余 的 分 配给 其 余 的 二 个 类 。 由 
于 先前 的 一 次 损失 函数 表达 式 中 出 现 的 p; 总 和 使 得 如 何 分 配 将 决定 二 次 损失 值 。 如 果 将 剩余 
的 60% 均 久 分 配 到 另外 一 个 类 ， 达 到 的 损失 是 最 小 的 。 不 均匀 的 分 配 将 使 平方 和 增加 。 而 另 

方面， 信息 损失 国 数 只 依赖 于 对 实际 发 生 的 事件 所 赋予 的 概率 。 如 果 你 对 某 个 即将 发 生 的 
事件 下 了 赌注 ， 而 且 押 对 了 ， 谁 还 在 乎 你 其 余 的 钱 在 其 他 事件 上 是 如 何 分 配 的 ? 

如 采 你 对 某 “实际 发 生 的 事件 赋予 了 很 小 的 概率 ， 信 息 损失 函数 会 给 你 很 大 的 惩罚 。 最 
大 的 惩罚 便 是 对 0 概率 ， 是 无 穷 的 。 在 赌博 世界 里 对 待 错误 的 惩罚 也 是 如 此 严厉 ! 而 二 次 损失 
ba Be 于 比 较 温和 的 、 被 绑 定 在 


1+ DP; 
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绝对 不 会 超出 2。 

访 后 、 信 息 损 失 函 数 的 提议 者 们 提出 一 种 对 学 习性 能 评估 的 -- 般 理论 ， 称 为 最 短 描述 长 
度 (MDL) 原理 (minimum description length principle )。 他 们 主张 -- 种 方案 所 学 的 结构 大 小 
可 以 用 信息 的 位 值 来 衡量 ， 如 果 损 失 值 也 用 相同 的 单位 来 衡量 ， 二 者 可 以 有 效 地 结合 在 一 起 。 
我 们 将 在 5.9 节 中 讨论 。 

5.7 计算 成 本 

到 目前 为 止 所 过 论 的 评估 方法 都 没有 劳 虑 到 错误 决策 、 错 误 分 类 的 成 本 问题 。 不 萎 
虐 错 误 成 本 的 优化 分 类 (成 功 ) 率 经 常会 导致 奇怪 的 结果 。 有 个 例子 ， 机 器 学 习 剖 用 于 判 
断奶 牛 场 里 的 每 … 头 母 牛 的 确切 动情 期 。 识 别 母 牛 使 用 电子 耳 签 、 并 使 用 各 种 不 同 的 特性 ， 
如 产 奶 量 及 化 学 成 分 (由 高 科技 的 挤 奶 机 器 自动 记录 )，、 挤 奶 次 序 ( 母 牛 是 有 秩序 的 动物 ， 
通常 是 按 相 同 的 次 序 进 挤 奶 棚 的 .除非 是 处 于 类 似 动情 期 这 类 非 正 常 的 情况 )。 在 现代 化 的 
牧场 手术 中 ， 事 先知 道 母 牛 何 时 做 好 准备 也 很 重要 : 动物 的 人 工 受精 错过 -个 周期 即 导致 
不 必要 的 延期 下 仔 、 使 下 一 次 更 为 复杂 。 在 早期 试验 中 ， 机 器 学 习 方 案 总 是 顽固 地 预测 母 
牛 始 终 没有 处 在 动情 期 。 和 人 类 - 样 ， 母 牛 也 有 约 隔 30 天 左右 的 牛 理 周 期 、 因 此 这 个 “ 零 ” 
规则 在 约 97% 的 时 候 都 是 正确 的 ， 这 个 正确 率 在 任何 农业 领域 都 是 令 人 难忘 的 ! 但 是 ,我 
们 所 需要 的 当然 是 “处 于 动情 期 ”的 预测 准确 率 高 于 “不 在 动情 期 ”的 准确 率 的 分 类 规则 : 
这 两 种 误差 的 成 本 代价 是 不 同 的 . 使 用 分 类 正确 率 进行 评估 是 在 默认 误差 成 本 相同 的 假设 
前 提 下 的 。 

其 他 反映 不 同 误差 成 本 的 例子 包括 贷款 决策 ， 贷 款 给 违规 者 的 代价 远 高 于 由 于 拒绝 贷款 
给 不 违规 攻 面 造成 生意 损失 的 代价 。 在 海面 浮 油 探测 中 、 术 能 探 负 出 威胁 环境 的 海面 浮 油 的 
错误 成 本 下 喝 于 错误 报警 的 代价 。 在 负荷 预报 中 ， 为 防范 : 场 实际 末 发 后 的 暴风 才 而 调整 发 
电机 组 所 产生 的 成 本 远 低 于 由 于 对 暴风 雪 的 袭击 毫 无 防范 所 造成 的 损失 。 在 诊断 实例 中 ， 实 
际 二 没有 问题 的 机 器 被 误诊 为 有 问题 所 产生 的 成 本 远 小 于 即将 导致 机 器 失败 的 问题 由 于 没有 
侦察 到 而 造成 的 损失 。 在 散发 促销 邮件 时 ， 散 发 垃圾 邮件 得 不 到 回音 所 产生 的 成 本 远 小 于 由 
于 没有 将 邮件 发 送 到 会 有 回音 的 家 庭 而 丧失 生意 机 会 所 造成 的 损失 。 为 什么 所 有 第 1 章 中 列举 
的 实例 都 在 这 里 ! 事实 上 ， 你 很 难 找到 不 同类 型 错误 的 成 本 是 相同 的 实例 。 

对 .个 yes 和 no 的 二 类 问题 ， 如 借 或 不 借 ， 将 可 疑 的 斑点 标记 为 浮 油 或 不 是 浮 油 等 等 ，- 一 
个 预测 吓 能 产生 四 种 不 同 的 结果 ， 见 表 5-3。 正 确 的 肯定 (true positive, TP) 和 正确 的 否定 
(true negative. TN) 都 是 正确 的 分 类 结果 。 错 误 的 肯定 (false positive, FP) 发 牛 在 当 预测 结 
困 为 yes 而 实际 上 是 no 有 时， 错误 的 否定 (false negative, FN) 发 生 在 当 预 测 结果 为 no 而 实际 上 
是 yes 时 。 正 确 肯定 率 (true positive rate) 是 TP 数值 除 以 肯定 类 的 总 数 TP + FN : 错误 肯定 率 
(false positive rate) 是 FP 数值 除 以 否定 类 的 总 数 FP + TN 。 综 合成 功率 是 正确 的 分 类 数 除 以 总 
体 分 类 数 : 

TP+TN 
TP+TN+FP+FN 


最 后 ， 误 差 率 就 是 用 1 减 去 它 。 
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35-3 二 类 预测 的 不 同 结果 














预 测 类 
yes no 
boa yes 正确 的 肖 定 错误 的 个 定 
NK - 
no 错误 的 和 肯定 止 确 的 在 定 





在 多 类 预测 中 ， 对 测试 集 的 预测 结果 经 常 使 用 维 混 淆 第 阵 (confusion matrix) 来 展示 ， 
每 个 类 都 有 对 应 的 行 和 列 。 每 个 矩阵 元 显示 的 是 测试 样本 数目 ， 这 些 样 本 的 真实 类 以 对 应 的 
行 显示 为 准 、 蔬 测 类 则 是 对 应 的 列 所 显示 的 类 。 好 的 结果 是 在 主 对 角 线 上 数值 要 大 ， 而 非 主 
对 角 线 (off-diagonal) 元 素 的 数值 要 小 (理想 情况 为 0)。 表 5-4(a) 给 出 了 一 个 三 类 问题 的 例子 。 
在 这 个 例 了 中 ， 有 200 个 测试 集 实例 (年 阵 中 九 个 数字 的 总 和 )， 其 中 88 + 40 + 12 = 140 是 下 
确 的 预测 ， 办 此 成 功率 是 70%。 

但 这 是 公正 的 综合 成 功率 衡量 方法 吗 ” 有 多 少 是 偶然 达成 - 致 的 ?这 个 预测 器 预测 
120 个 测试 样本 属 fa 类 、60 个 属于 bp 类 ，20 个 属于 c 类 。 如 果 有 一 个 随机 预测 器 也 达到 如 此 
相同 的 预测 数 日 又 会 是 怎样 的 呢 ? 答案 可 在 表 5-4(b) 中 看 到 。 表 5-4(b) 中 第 一 行将 100 个 实 
际 属 天 类 的 测试 集 按 先前 预测 器 的 各 类 预测 总 体 比 例 分 挫 ， 其 余 二 类 在 第 二 行 和 第 一 行 
也 照 此 法 按 比例 分 挫 ， 这 样 得 到 的 所 阵 当然 每 行 、 每 列 的 总 和 与 先前 的 和 抢 阵 是 相同 的 ， 实 
例 数量 没有 改变 、 而 旦 也 保证 了 随机 预测 器 和 真实 预测 器 对 a、b、c 三 个 类 的 预测 数目 是 
相等 的 。 

表 5-4 一 个 三 类 问题 的 不 同 预测 结果 : (a) 真 实 的 (b) 期 望 的 
预测 类 预测 类 


一 SE 总 计 











88 10 2 100 真 灾 的 类 : 60 30 10 100 


真实 的 类 


a 
b 
c 





这 个 随机 预测 器 使 60 + 18 + 4 = 827 RAR TERT. — Ph D RA Kappa 统 
Lb CHE x SSH GES, OA A RR, FER EA PEE 
的 预测 器 所 得 结果 的 比例 值 、 即 从 200 — 82 = 118 个 可 能 的 成 功 数 中 得 到 140 - 82 = 58 个 额外 的 
成 功 数 日 . 或 者 说 是 49.2% Kappa 的 最 大 值 是 100% ， 而 有 具有 相同 列 的 随机 预测 器 的 Kappa 期 户 
值 是 0。 总 的 来 说 ，Kappa 统计 量 用 于 衡量 对 “个 数据 集 预 测 分 类 和 观察 分 类 之 间 的 -- 致 性 ， 
- 致 性 的 修 止 偶尔 发 后。 但 是 如 同 普通 的 成 功率 计算 -一样 ， 它 也 没有 考虑 成 本 问题 。 


5.7.1 成 本 敏感 分 类 


如 果 成 本 已 知 ， 它 们 可 以 被 应 用 到 决策 过 程 的 财务 分 析 中 。 在 一 个 二 类 问题 中 ， 混 清算 
阵 如 表 5-3， 它 的 两 种 错误 类 型 ， 错 误 的 肯定 和 错误 的 否定 ， 将 会 有 不 同 的 成 本 ; 同样 地 ， 两 
种 不 同 的 正确 分 类 可 能 带 来 不 同 的 收益 。 二 类 问题 的 成 本 可 概括 成 一 个 2 x 2 的 矩阵 ， 主 对 角 
元 素 代表 了 两 种 类 型 的 正确 分 类 ， 而 非 主 对 角 元 素 代 表 了 两 种 类 型 的 错误 分 类 。 在 多 类 情况 
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下 ， 这 就 被 推广 为 … 个 方 阵 ， 方 阵 大 小 即 是 类 的 个 数 ， 并 且 主 对 角 元 素 也 是 代表 了 正确 分 类 
的 成 本 。 表 5-5(a)、(b) 分 别 展示 了 二 类 和 三 类 缺 省 的 成 本 算 阵 ， 和 矩阵 只 是 简单 地 给 出 了 错误 数 
目 : 每 个 错误 分 类 成 本 都 是 1。 


表 5-5 ” 缺 省 的 成 本 和 矩阵: (a) 二 类 情况 (b) 三 类 情况 





考虑 成 本 矩阵 ， 用 每 个 决策 的 平均 成 本 (或 者 从 正面 看 ， 考 虑 收益) 来 代替 成 功率 。 虽 

然 在 这 里 我 们 不 这 样 做 ,但 决策 过 程 中 完整 的 财务 分 析 也 许 还 要 考虑 使 用 机 器 学 习 工 具 的 成 

[164] 本 ， 包 括 搜集 训练 集 的 成 本 和 模型 使 用 成 本 ， 或 者 是 产生 决策 结构 的 成 本 ， 即 决定 测试 实例 
属性 的 成 本 。 如 果 所 有 这 些 成 本 都 是 已 知 的 ， 成 本 矩阵 中 反映 不 同 结果 的 数值 可 以 估计 出 来 ， 
比如 说 用 交叉 验证 法 估计 ， 那 么 进行 这 种 财务 分 析 便 很 简单 了 。 

给 出 成 本 矩阵 ， 可 以 计算 某 个 具体 学 习 模 型 在 某 个 测试 集 上 的 成 本 ， 只 要 将 模型 对 每 个 
测试 实例 进行 预测 所 形成 的 成 本 和 矩阵 中 的 相关 元 素 相 加 。 进 行 预测 时 ， 成 本 将 被 忽略 ， 但 进 
行 评估 时 则 考虑 成 本 。 

如 果 模 型 能 够 输出 与 各 个 预测 相关 联 的 概率 ， 便 能 调整 期 望 预测 成 本 到 最 小 。 给 出 对 某 
个 测试 实例 各 个 预测 结果 的 概率 ， 一 般 都 会 选择 最 有 可 能 的 那个 预 铀 结果。 作为 替换 ， 模 型 
也 可 以 选择 期 望 错 误 分 类 成 本 最 低 的 那 一 个 类 作为 预测 结果 。 例 如 ， 假 设 有 一 个 三 类 问题 ， 
分 类 模型 赋予 某 -- 个 测试 实例 属于 a、b、c 三 个 类 的 概率 分 别 为 p。、ps 和 p。， 它 的 成 本 矩阵 
如 表 5-5(b)。 如 果 预 测 是 属 a 类 ， 并 且 这 个 预测 结果 是 正确 的 ， 那 么 期 望 预测 成 本 就 是 将 矩阵 
的 第 … 列 [0,1.1] , 和 概率 向 量 [p。, p,. pl] 相 乘 ， 得 到 ps。 +P. ， 或 者 1 -ps ,因为 三 个 概率 的 
和 等 于 1。 类 似 地 ， 另 外 两 个 类 的 预测 成 本 分 别 是 1 - p, 和 1 一 p。。 对 这 个 成 本 矩阵 来 说 ， 选 
择期 望 成 本 最 低 的 预测 就 相当 于 选择 了 概率 最 大 的 类 。 对 于 不 同 的 成 本 什 阵 ， 情 况 可 能 会 有 
所 不 同 。 

前 提 假 设 是 学 习 方 案 能 输出 概率 ， 就 如 同 朴素 贝 叶 斯 方案 那样 。 即 使 通常 情况 下 不 输出 
概率 ， 大 多 数 分 类 器 还 是 很 容易 计算 出 概率 的 。 如 决策 数 ， 对 一 个 测试 实例 的 概率 分 布 就 是 
对 应 叶 节 点 上 的 类 分 布 。 


5.7.2 成 本 敏感 学 习 


我 们 已 经 看 到 怎样 利用 一 个 在 建 模 时 不 考虑 成 本 的 分 类 器 ， 做 出 对 成 本 矩阵 敏感 的 预测 。 
在 这 种 情况 下 ， 成 本 在 训练 阶段 被 忽略 ， 但 在 预测 阶段 则 要 使 用 。 另 一 种 方法 正好 相反 ， 在 
训练 过 程 中 考虑 成 本 ， 而 在 预测 时 忽略 成 本 。 从 理论 上 讲 ， 如 果 学 习 算 法 给 分 类 器 合适 的 成 
本 年 阵 ， 可 能 会 获得 较 好 的 性 能 。 
对 一 个 二 类 问题 ， 有 -个 简单 的 常用 方法 能 使 任何 一 个 学 习 方 案 变 为 成 本 敏感 型 。 想 法 
是 生成 拥有 yes 和 no 实例 不 同类 别 比例 的 训练 数据 。 假 设 人 为 地 提高 数据 集中 属于 no 类 的 实例 
[165] 数量 到 10 倍 ， 然 后 用 这 个 数据 集 进行 训练 。 如 果 学 习 方 案 是 力争 使 错误 数目 最 小 化 的 ， 将 形 
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成 个 倾向 于 避免 对 no 类 实例 错误 分 类 的 决策 结构 ， 因 为 这 种 错误 会 带 来 10 倍 的 惩罚 。 如 果 
在 测试 数据 中 ， 属 于 no 类 实例 的 比例 还 是 按照 它 在 原始 数据 中 的 比例 ， 那 么 no 类 实例 的 错误 
将 小 于 属于 yes 类 的 实例 一 -也 就 是 说 错误 的 肯定 将 小 于 错误 的 否定 一 一 因为 错误 的 肯定 已 被 
加 权 而 达到 10 倍 于 错误 的 否定 。 改 变 训练 集中 实例 的 比例 是 一 种 建立 成 本 敏感 分 类 器 的 常用 
技术 。 

改变 训练 集 实例 比例 的 一 种 方法 是 复制 数据 集中 实例 。 另 一 方面 ， 很 多 学 习 方 案 允 许 对 
实例 加 权 。( 正如 我 们 在 3.2 节 中 提 到 的 ， 这 是 处 理 残 缺 数值 的 一 种 常用 技术 。) 实例 的 权 通 党 
初始 为 1。 为 了 建立 成 本 敏感 的 树 ， 权 可 被 初始 为 两 种 错误 的 相对 成 本 ， 即 错误 的 肯定 和 错误 
的 否定 所 对 应 的 成 本 。 





5.7.3 上 升 图 


在 现实 中 ， 很 难 知 道成 本 的 正确 度 ， 人 们 要 考虑 各 种 不 同 的 场景 。 想 象 一 下 你 在 从 事 直 
接 邮 寄 广 告 的 业务 ， 要 将 -个 促销 广告 大 规模 邮寄 给 1 000 000 户 家 庭 ， 当 然 大 部 分 的 家 庭 是 
不 会 有 回应 的 。 根 据 以 往 的 经 验 ， 得 到 回应 的 比例 是 0.1% (有 1000 个 回应 者 )。 假 设 我 们 现 有 
-套数 据 控 据 工具 ， 根 据 我 们 对 这 些 家 庭 的 掌握 信息 ， 能 识别 出 其 中 的 100 000 户 家 庭 子 集 ， 
回应 率 达 0.4% ( 有 400 个 回应 者 )。 根 据 邮 寄 成 本 与 回应 所 带 来 便利 的 比较 ， 将 邮寄 广告 限定 
在 这 100 000 户 家 庭 上 许 是 很 划算 的 。 在 市 场 学 术语 中 ， 回 应 率 的 增值 ， 在 这 个 例子 中 为 系数 
4， 称 为 上 升 系数 (lift factor)， 由 学 习 工具 得 到 。 如 果 知 道成 本 ， 就 能 确定 某 个 具体 上 升 系 
数 所 隐 含 的 僵 利 。 

然而 ， 你 很 可 能 还 需要 评估 其 他 的 可 能 性 。 采 用 相同 的 数据 挖掘 方案 而 选 定 不 同 参数 设 
定 ， 也 许 会 识别 出 其 中 的 400 000 户 家 庭 ， 回 应 率 达 0.2% (有 800 个 回应 者 )， 对 应 的 上 升 系 数 
为 2。 同样 地 ， 这 是 否 邮 寄 广 告 更 有 利 可 图 的 目标 ， 可 以 从 所 投入 的 成 本 计算 中 看 出 。 考 虑 模 
型 建立 和 模型 应 用 成 本 因素 也 许 是 必要 的 ， 这 包括 生成 属性 值 所 需 的 信息 搜集 。 毕 竟 ， 如 果 
模型 生成 代价 非常 昂贵 ， 大 规模 的 邮寄 比 锁定 目标 更 具 成 本 效率 。 

给 定 -个 学 习 方 案 ， 输 出 对 测试 数据 集 每 个 成 员 的 类 预测 概率 (如 朴素 贝 叶 斯 方案 )， 找 
出 一 些 测试 实例 子 集 ， 这 些 子 集 所 含 的 肯定 类 实例 的 比例 要 高 于 肯定 类 在 整个 测试 集中 所 占 
的 比例 。 为 此 ， 将 所 有 测试 实例 按照 预测 yes 概 率 的 降序 排列 。 这 样 ， 要 找 出 一 个 大 小 给 定 、 
肯定 类 实例 所 占 比例 尽 可 能 大 的 样本 ， 只 要 在 测试 实例 序列 中 从 头 开始 读 取 要 求 数量 的 实例 。 
如 果 每 个 测试 实例 的 真实 类 已 知 ， 便 可 计算 上 升 系 数 ， 只 要 将 样本 中 肯定 类 实例 数量 除 以 样 
本 数量 得 到 -个 成 功 比例 ， 然 后 再 除 以 整个 测试 集 的 成 功 比 例 ， 得 到 上 升 系数 。 

表 5-6 给 出 一 个 例子 ，-- 个 小 数据 集 含 150 个 实例 ， 其 中 50 个 是 yes 回 应 ， 因 此 总 体 成 功 比 
例 是 33%。 所 有 的 实例 已 经 按照 它们 被 预测 为 yes 回 应 概率 的 降序 排列 。 序 列 中 的 第 一 个 实例 
是 学 习 方法 认为 最 有 可 能 得 到 肯定 回应 的 ， 第 二 个 是 下 一 个 最 有 可 能 的 ， 依 次 类 推 。 概 率 的 
数值 并 不 重要 : 排名 才 是 重要 的 。 每 个 实例 的 真实 类 排名 都 已 给 出 。 可 以 看 出 ， 这 个 学 习 方 
法 对 第 -项 和 第 一 项 的 预测 都 是 正确 的 ， 它 们 确实 是 肯定 的 。 可 是 第 三 项 却 是 错误 的 ， 它 的 
结果 是 否定 的 。 如 果 你 现在 要 寻找 10 个 最 有 希望 的 实例 ， 但 只 知道 预测 概率 而 不 知 真实 的 类 ， 
最 佳 的 选择 就 是 排名 中 的 前 十 个 实例 。 其 中 8 个 是 有 肯定 回应 的 ， 因 此 成 功 比例 就 是 80% ， 对 
应 的 上 升 系数 约 为 2.4。 
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表 5-6 上 升 图 数据 
排名 预测 概率 实际 类 排 名 预测 概率 实际 类 

! 0.95 yes 11 0.77 no 
2 0.93 yes 12 0.76 yes 
3 0.93 no 13 0.73 yes 
4 0.88 yes 14 0.65 no 
5 0.86 yes 15 0.63 yes 
6 0.85 yes 16 0.58 no 
7 0.82 yes 17 0.56 yes 
8 0.80 yes 18 0.49 no 
9 0.80 no 19 0.48 yes 
10 0.79 yes ve 





如 果 你 知道 所 技 入 的 不 同 成 本 ， 就 可 以 计算 出 每 种 样本 的 大 小 ， 然 后 选择 最 有 收益 的 样 
本 。 然 而 ， 通 过 图 形 展示 各 种 不 同 的 可 能 性 经 常 比 只 提供 一 个 “最 佳 ”决策 更 有 启迪 作用 。 
用 不 同 大 小 的 样本 重复 上 述 操作 ， 便 能 画 出 如 图 5-1 的 上 升 图 。 横 轴 是 样本 大 小 与 所 有 可 能 邮 
寄 数量 的 比例 。 纵 轴 是 所 得 到 的 回应 数量 。 左 下 角 点 和 右上 角 点 分 别 代表 没有 邮寄 得 到 0 个 回 
应 和 全 数 邮寄 得 到 1000 个 回应 。 对 角 线 给 出 了 针对 不 同 大 小 的 随机 样本 的 期 望 结果 。 但 我 们 
不 古 随机 抽取 样本 ， 而 是 利用 数据 挖掘 工具 选择 那些 最 有 可 能 给 出 回应 的 实例 样本 。 这 在 图 
中 对 应 位 于 上 方 的 那 根 曲线 ， 它 是 由 实际 得 到 的 回应 数 之 和 与 对 应 的 按 概率 排序 的 实例 百 分 
比 来 确定 的 。 上 面 讨论 过 的 两 个 具体 例子 在 图 中 标记 为 :10% 邮 和 寄 比 例 产 生 400 个 回应 者 和 40% 
邮寄 比例 产生 800 个 回应 者 。 
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0 20% 40% 60% 80% 100% 
样本 大 小 
图 5-1 一 个 假设 的 上 升 图 

尔 所 希望 的 位 置 是 在 图 中 靠近 左上 角 ， 最 好 的 情况 是 1000 个 邮 害 广告 获得 1000 个 回应 ， 
这 时 你 只 将 邮件 寄 给 会 有 回应 的 家 庭 并 获得 100% 的 成 功率 。 任 何 值得 命名 的 选择 程序 都 会 让 
你 保持 在 对 角 线 上 方 ， 否 则 你 的 结果 比 随机 取样 还 差 。 因 此 ， 上 升 图 的 工作 部 位 是 在 上 三 角 
位 置 ， 越 往 西北 方向 越 好 。 
5.7.4 ROCHE 


上 升 购 是 有 用 的 工具 , 广泛 应 用 于 市 场 营销 领域 。 它 和 一 种 评估 数据 控 据 方案 的 图 形 技 
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术 ROC 曲 线 关系 密切 。ROC 曲 线 同样 适用 于 上 述 情 形 ， 学 习 器 选择 测试 实例 样本 时 尽量 使 肯 [168] 


定 结果 比例 较 高 。“ 接 受 者 操作 特性 (receiver operating characteristic)” M475 ( 即 ROC ) ， 
是 一 种 用 于 信号 探测 的 未 语 ， 用 来 体现 噪声 信道 击 中 率 和 错误 报警 之 间 的 平衡 。 ROC 曲线 
描绘 分 类 器 的 性 能 而 不 考虑 类 分 布 或 误差 成 本 。 纵 轴 是 样本 中 所 含 肯定 类 的 数量 ,表示 为 它 
在 肯定 类 总 数 中 所 占 的 百分比 ， 横 轴 是 样本 中 所 含 否定 类 的 数量 ， 表 示 为 它 在 否定 类 总 数 中 
所 占 的 百分比 。 纵 轴 实 际 上 和 上 升 图 是 一 样 的 ， 只 是 它 是 用 百分比 来 表示 。 横 轴 稍 许 有 点 差 
别 ， 由 和 否定 类 数量 代替 样本 大 小 。 然 而 ， 在 市 场 直 销 情形 中 ， 肯 定 结 果 的 比例 是 非常 小 的 
(如 0.1%)， 样 本 大 小 和 否定 类 数量 之 间 的 差别 可 以 忽略 ， 因 此 ROC 曲线 和 上 升 图 看 起 来 很 相 
似 。 与 上 升 图 相似 ， 左 上 角 是 工作 位 置 。 


正确 的 肯定 





0 20% 40% 60% 80% 100% 
错误 的 肯定 
图 5-2 ROC 曲线 


图 5-2 展示 了 表 5-6 所 列 测试 数据 样本 的 ROC 曲 线 (锯齿 线 )。 你 可 以 和 表 结 合 在 一 起 看 。 
从 原点 开始 ， 向 上 2 (2 个 肯定 类 )， 向 右 1 (1 个 否定 类 ), 向 上 5 (5 个 肯定 类 )， 向 右 1 (1 个 否 
定 类 )， 向 上 1， 向 右 1， 向 上 2 等 等 。 每 个 点 对 应 画 出 序列 表 中 的 某 个 位 置 ， 累计 yes 和 no 的 
数量 分 别 朝 纵向 和 横向 画 线 。 顺 着 序列 表 往 下 ， 样 本 扩大 ， 肯 定 类 和 否定 类 数量 也 随 之 增长 。 

图 5-2 中 的 锯齿 形 ROC 线 依赖 于 具体 测试 数据 样本 内 容 。 运 用 交叉 验证 可 以 降低 对 样本 的 
依赖 。 对 每 个 不 同 的 no 类 数量 ， 即 沿 横 轴 方向 的 每 个 位 置 ， 取 适 量 排 在 前 面 的 实例 使 no 类 数 
量 正好 达到 ， 计 算 其 中 yes 类 个 数 ， 最 后 将 交叉 验证 的 不 同 折 所 得 的 yes 类 个 数 取 平均 值 。 结 
果 得 到 如 图 5-2 中 的 光滑 曲线 ， 但 在 现实 中 这 种 曲线 并 不 如 此 光滑 。 

这 只 是 利用 交叉 验证 产生 ROC 曲 线 的 一 种 方法 ， 更 简便 的 方法 是 收集 在 所 有 不 同 测试 集 
(在 10 折 交叉 验证 中 存在 10 个 ) 上 的 预测 概率 ， 连 同 各 个 实例 所 对 应 的 址 实 类 标签 这 然后 根据 
这 些 数据 生成 一 个 排名 表 。 这 里 假设 由 不 同 训练 集 建立 的 分 类 器 的 概率 估计 都 是 基于 相同 大 
小 的 随机 数据 样本 。 到 底 哪 种 方法 更 好 并 不 很 清楚 ， 但 是 后 者 更 易 实现 。 

如 果 学 习 方 案 不 能 对 实例 进行 排序 ， 可 以 如 前 所 述 先 将 其 变 为 成 本 敏感 型 。 在 10 折 交叉 
验证 的 每 个 折 中 ， 对 实例 选择 不 同 的 成 本 比例 加 权 ， 在 加 了 权 的 数据 集 上 进行 方案 训练 ， 在 
测试 集 上 计算 正确 的 肯定 和 错误 的 肯定 数量 ， 然 后 将 结果 画 在 ROC 轴 上 。( 测 试 集 是 否 加 权 没 
有 关系 ， 因 为 在 ROC 图 中 坐标 轴 数 值 是 用 正确 或 错误 的 肯定 的 百分比 来 表示 的 。 ) 但 是 ， 对 一 
些 原本 就 成 本 敏感 的 概率 性 分 类 器 (如 朴素 贝 叶 斯 ) 来 说 ， 成 本 大 大 增加 ， 因 为 在 曲线 的 每 
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个 点 上 都 要 包含 一 个 独立 的 学 习 问 题 。 

比较 一 下 由 不 同 的 学 习 方案 经 交叉 验证 的 ROC 曲线 是 很 有 帮助 的 。 例 如 ， 图 5-3 中 ， 如 果 
要 寻求 一 个 规模 较 小 且 集 中 的 样本 ， 也 就 是 说 如 果 图 形 左 侧 是 你 的 工作 位 置 ， 那 么 A 模 型 有 优 
越 性 。 明 确 地 说 ， 如 果 你 的 目标 是 要 覆盖 40% 正确 的 肯定 ， 就 选择 A 模 型 。 其 错误 的 肯定 率 在 
5% 左右 ， 这 比 错误 的 肯定 率 达 20% 以 上 的 B 模 型 要 好 。 但 如 果 你 计划 使 用 一 个 大 型 的 样本 ， 
B 模 型 具有 优越 性 。 如 果 你 要 覆盖 80% 正 确 的 肯定 ，B 模 型 所 产生 的 错误 的 肯定 率 在 60%， 而 
A 模型 则 达 80%。 阴 影 区 域 称 为 两 个 曲线 之 间 的 山 包 (convex hull), 你 总 是 要 工作 在 凸 包 的 
上 边界 。 





0 20% 40% 60% 80% 100% 
错误 的 肯定 
图 5-3 两 个 学 习 方案 的 ROC 曲 线 


那么 凸 包 上 边界 的 中 间 区 域 ， 既 不 属于 A 方 案 也 不 属于 B 方 案 ， 该 如 何 看 待 呢 ? 这 是 个 值 
得 注意 的 事实 ， 你 可 以 将 A 方 案 和 B 方 案 以 适当 的 概率 随机 组 合 ， 而 达到 阴影 区 域 的 任何 位 置 。 
为 了 看 到 这 点 ， 我 们 为 正确 和 错误 的 肯定 率 分 别 达到 ts Ma 的 A 方案 选择 某 一 具体 的 概率 ， 正 
确 和 错误 的 肯定 率 分 别 达 到 is 和 fs 的 B 方 案 选 择 另 一 个 概率 。 如 果 你 随意 使 用 这 两 个 学 习 方 案 
的 概率 分 别 为 p 和 4， 且 p+4g = 1， 那 么 你 将 获得 正确 和 错误 的 肯定 率 分 别 为 p * + 9 t Mp: 
fa +4: fo 。 这 代表 了 位 于 (t， fa) 和 (ts ，fa) 两 点 之 间 的 直线 上 的 某 一 个 点 ， 改 变 p 和 g 的 值 可 
以 描绘 出 这 两 点 之 间 的 整 条 连 线 。 这 样 整个 阴影 部 分 都 可 以 获得 。 只 有 当 某 个 方案 产生 一 个 
点 正好 落 在 凸 包 上 边界 ， 要 单独 使 用 这 个 方案 ; 否则 的 话 ， 组 合 使 用 分 类 器 与 凸 包 上 某 点 对 
应 总 会 好 一 些 。 


5.75 反馈 率 - 精 确 率 曲线 


人 们 已 经 通过 描绘 各 个 不 同 领域 的 上 升 图 和 ROC 曲 线 ， 抓 住 了 一 些 基本 性 的 权衡 问题 。 
信息 检索 便 是 一 个 好 例子 。 提 交 一 个 查询 ， 网 络 搜索 引擎 即 列 出 一 串 经 推测 与 问题 相关 的 文 
件 。 某 个 系统 有 100 个 文件 ， 其 中 40 个 为 相关 文件 ， 而 另 一 系统 有 400 个 文件 ， 其 中 80 个 相关 
文件 。 比 较 两 个 系统 ， 哪 个 更 好 呢 ? 答案 很 明显 ， 它 是 由 错误 的 肯定 ， 即 被 返回 但 却 不 相关 
的 文件 数 ， 以 及 错误 的 否定 ， 即 相关 的 却 没有 被 返回 的 文件 数 所 对 应 的 成 本 决定 的 。 信 息 检 
索 研 究 者 定义 了 两 个 参数 ， 称 为 反馈 率 (recall) 和 精确 率 (precision): 
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, _ 检索 到 的 相 关 文 件数 量 
BRP = — EEE 
检索 到 的 相关 文件 数量 
检索 到 的 文件 总 数 重 

例如 ， 如 果 表 5-6 中 所 列 的 是 检索 反馈 的 文件 排名 ，yes 和 no 表示 这 个 文件 是 否 相关 ， 而 
整个 收藏 集中 共 包含 了 40 个 相关 的 文件 ， 那 么 “10 项 反馈 率 ” 就 是 指 排名 中 前 十 项 的 反馈 率 ， 
即 是 8/40=20%; “10 项 精确 率 ” 就 是 8/10 = 80% 。 信 息 检索 专家 使 用 反馈 率 -精确 率 曲线 ， 
如 同 ROC 曲 线 和 上 升 图 一 样 ， 对 不 同 的 反馈 文件 数目 ， 画 出 相应 的 反馈 率 和 精确 率 。 只 是 因 
坐标 轴 不 同 ， 曲 线 成 双 曲 形状 ， 期望 的 工作 点 在 右上 角 。 


表 5-7 权衡 错误 肯定 和 错误 否定 的 不 同 评估 度量 方法 


精确 率 = 




















领 R 绘 tl 轴 轴 的 含义 
LTR 市 场 营 销 正确 的 肯定 (TP) TP 正确 的 肖 定 数量 
， > TP + FP A 
对 应 子 集 容量 TRER x 100% 
ROCHER 通信 正确 肯定 率 (TP) TP 率 p=— xi00% 
TP+FN 
对 应 错误 肖 定 率 (FP) FP% =— x100% 
POO, ER De Fae 48 CFP) P= IN o 
PEIEE- Pi aR h tR 信息 检索 反馈 率 ”反馈 率 同 以 上 的 TP 率 加 
如 、 TP 





5.7.6 讨论 

表 5-7 总 结 了 我 们 已 介绍 的 三 个 基本 权衡 的 不 同 评估 方法 ，TP，FP， TN 和 FN 分 别 代 表 正 
确 的 肯定 、 错 误 的 肯定 、 正 确 的 否定 和 错误 的 寿 定 。 你 想 选 树 一 个 实例 集 ， 包含 yes 类 实例 的 
比例 较 高 ， 并 且 yes 类 的 覆盖 量 也 较 高 的 ， 可 以 (保守 地 ) 选用 略 小 -点 的 覆盖 量 提高 类 比例 ， 
或 者 损失 类 比例 (公平 地 ) 提高 禾 盖 量 。 不 同 的 技术 提供 不 同 的 折 囊 方案 ， 并 可 用 上 述 任何 
一 种 图 形 绘制 出 不 同 的 曲线 。 

人 们 还 试图 寻找 单一 的 量度 来 体现 性 能 。 在 信息 检索 中 使 用 的 两 种 方法 就 是 3 点 平均 反馈 
率 (three-point average recall)， 即 在 反馈 率 达 20%、 50% 和 80% 时 ， 所 对 应 的 三 个 精确 率 的 
半 均 值 ， 另 一 种 是 11 点 平均 反馈 率 ， 即 在 反馈 率 达 0%、10%、20%、30%、40%、50%、 
60%、70%、80%、90% 和 100% 时 所 对 应 的 精确 率 的 平均 值 。F 测 量 (F-measure ) 用 于 信息 
Re, Hp: 

2% AREARE 2-TP 
反馈 率 + 精 确 率 2- TP +FP+FN 


不 同 的 领域 使 用 不 同 的 术语 。 例 如 在 医学 上 谈论 的 诊断 试验 的 敏感 性 和 特异 性 (specificity) 。 
敏感 性 是 指 在 患 病人 群 中 ， 诊 断 结果 是 肯定 (得 病 ) 的 比例 ， 即 p。 特 异性 是 指 在 没有 病 的 
人群 中 ， 诊 断 结 果 也 是 否定 的 比例 ， 即 1 -如 。 有 时 它们 的 乘积 被 当 作 是 一 种 总 体 衡量 : 


— 
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TP-TN 
(TP + FN): (FP + TN) 





教 感性 x 特 异性 = 如 (1 — fp)= 


最 后 当然 还 有 我 们 的 老 朋 友 ， 成 功率 : 
OO TPT 
TP +FP+TN + FN 


为 了 将 ROC 曲 线 概括 成 单 的 数量 ， 人 们 有 时 选用 曲线 下 方 的 面积 (AUC)， 因 为 … 般 说 
来， 面积 越 大 ， 模 型 越 好 。 这 个 面积 也 可 以 很 恰当 地 解释 为 分 类 器 将 任意 抽取 的 肯定 类 实例 
排列 在 任意 抽取 的 否定 类 实例 之 前 的 概率 。 如 果 在 成 本 和 类 分 布 都 是 未 知 的 情形 下 ， 要 选择 
-种 方案 来 处 理 所 有 的 情况 、 这 种 度量 方法 也 许 会 有 帮助 ， 但 是 仅 靠 一 个 数字 是 无 法 尽 善 尽 
ETA … 个 折 训 问题 的 。 这 也 只 适合 类 似 于 上 升 图 ，ROC 曲 线 和 反馈 率 - 精 确 率 邢 样 的 二 
维 描述 。 

5.7.7 成 本 曲线 

ROC 山 线 以 及 与 此 类 似 的 其 他 方法 在 探测 不 同 分 类 器 及 其 成 本 之 问 的 权衡 是 非常 有 用 的 。 
但 是 它们 的 不 理想 之 处 是 要 在 已 知 错误 成 本 的 情形 下 评估 机 器 学 习 模型 。 比如 要 读 出 其 个 分 
类 器 的 期 望 成 本 ， 即 一 个 确定 的 成 本 什 阵 和 类 分 布 ， 并 不 是 件 容易 的 事 。 要 确定 不 同 分 类 器 
的 适用 性 也 不 容易 。 图 5-3 中 ， 在 两 条 ROC 曲 线 交叉 点 ， 很 准 说 分 类 器 A 以 多 大 的 成 本 和 类 分 
布 用 过 分 类 器 B。 . 

成 本 曲线 是 另 种 不 同 的 展示 方法 ， -个 分 类 器 对 应 一 条 直线 ， 它 所 展示 的 是 性 能 如 何 
随 类 分 布 的 变化 而 变化 。 它 们 也 是 针对 二 类 问题 效果 最 佳 ， 尽 管 多 类 问题 总 是 可 以 通过 挑选 
出 其 中 “个 类 对 照 其 余 的 类 厕 转化 为 一 类 问题 。 

图 5-4a 丙 出 了 期 望 误差 与 其 中 … 个 类 概率 之 间 的 关系 。 你 可 以 想象 通过 对 测试 集 不 均匀 
重新 取样 来 调整 这 个 概率 。 我 们 将 两 个 类 分 别 表示 为 + 和 - ， 两 条 对 角 线 展示 的 是 两 个 极端 
的 分 类 器 的 性 能 表现 ， 其 中 -个 分 类 器 始终 预测 是 + 类 ， 如 果 数据 集中 没有 属于 + 类 的 实例 
那么 期 望 误差 则 为 1， 如 果 所 有 实例 都 属于 + 类 , 那么 期 望 误差 则 为 0%， 另 -种 分 类 器 始终 预测 
是 -类 ， 则 给 出 正好 相反 的 性 能 。 水 平 虚线 表示 分 类 器 预测 始终 是 错误 的 ， 而 X 轴 本 身 则 表示 
分 类 器 预测 始终 是 正确 的 。 当 然 这 些 在 实践 中 都 是 不 现实 的 。 好 的 分 类 器 误差 率 低 ， 因 此 你 
所 想 要 的 是 尽 可 能 地 接近 图 形 底部 。 

直线 A 代表 了 某 个 具体 的 分 类 器 的 误差 率 。 如 果 你 在 某 个 测试 集 上 计算 它 的 性 能 表现 ， 错 
误 肯定 率 名 便 是 它 在 全 部 属于 否定 类 (pL+]=0) 的 测试 子 集 上 的 期 望 误差 率 ， 而 错误 否定 率 
便 是 它 在 全 部 属于 肯定 类 (P[+]=1) 的 测试 子 集 上 的 误差 率 。 它 们 的 值 分 别 是 直线 左右 两 端 
的 纵 坐标 值 。 从 图 中 你 即刻 可 以 发 现 当 pf+] 小 于 0.2 时 ， 始 终 预测 - 类 的 极端 分 类 器 性 能 优 于 
揣测 A， 而 当 p[+] 大 于 约 0.65 时 ， 另 一 个 极端 分 类 器 性 能 优 于 预测 器 A。 

到 目前 为 止 ， 我 们 还 设 有 考虑 成 本 问题 ， 或 者 可 以 说 用 的 是 缺 省 成 本 和 矩阵， 所 有 的 错误 所 
产生 的 成 本 是 “ 样 的 。 考 虑 误差 成 本 的 成 本 曲线 ， 除 了 坐标 轴 不 同 外 ， 看 起 来 非常 地 相似 。 图 
5-4b 展 示 了 分 类 器 A 的 成 本 曲线 (注意 为 方便 起 见 ， 纵 坐标 比例 放大 了 。 我 们 现在 暂时 忽略 图 中 
的 灰 线条 )。 成 本 曲线 图 展示 的 是 使 用 A 的 期 望 成 本 对 应 概率 成 本 函数 。 概 率 成 本 函数 其 实 是 
PH+] 的 变形 ， 同 样 保持 着 两 种 极端 : 当 p[+]-0 时 期 望 成 本 为 0， 当 p[+]=1 时 则 为 1。 当 实例 预测 值 
基 + 类 而 实 属 - 类 时 的 成 本 表示 为 CL+1 -], 反之 则 表示 为 C[ - H]。 这 样 ， 图 5-4b 的 举 标 轴 分 别 是 
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图 5-4 概率 变化 所 产生 的 影响 


经 正常 化 的 期 望 成 本 =fn x pc [+]+fp x (1 -pc[+]) 
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我 们 假设 正确 的 预测 是 没有 成 本 耗费 的 ， 即 C{+l+]=C[ 一 1-]=0。 如 果 不 是 这 样 ， 上 述 公 式 则 
还 要 复杂 一 些 。 

经 正常 化 的 期 望 成 本 最 大 值 可 达到 1， 这 也 是 为 什么 称 它 是 “经 正常 化 ”的 原因 。 成 本 曲 
线 好 在 如 同 误差 曲线 一 样 ， 图 中 的 左右 极端 成 本 值 正 是 如 和 fn ， 因 此 可 以 很 容易 地 画 出 任意 
一 个 分 类 器 的 成 本 曲线 图 。 

图 5-4b 中 分 类 器 B 的 期 望 成 本 始终 保持 --- 致 ， 也 就 是 说 它 的 错误 肯定 和 错误 否定 率 是 相等 
的 。 正 如 你 会 看 到 的 ， 当 概率 成 本 函数 值 约 大 于 0.45 时 ， 它 的 性 能 优 于 分 类 器 A， 知 道 了 成 本 ， 
我 们 便 能 很 容易 地 计算 出 相应 的 类 分 布 。 遇 到 有 不 同类 分 布 的 情形 ， 用 成 本 曲线 可 很 容易 地 
表明 某 个 分 类 器 性 能 优 于 另 -个 。 

在 何 种 情况 下 这 会 有 用 呢 ? 回 到 我 们 讲述 的 预测 母 牛 动情 期 的 例子 ， 它 们 有 30 天 的 周期 ， 
或 者 说 1/30 的 先 验 概率 ， 一 般 不 会 有 很 大 的 变化 (除非 基因 突变 ! )。 但 某 个 牧场 在 任何 指定 
的 星期 里 很 可 能 处 于 动情 期 的 母 牛 会 有 不 同 的 比例 , 也 许 和 月 亮 的 月 相同 步 , 谁 知道 呢 ? 因此 ， 
不 同 的 时 期 适合 使 用 不 同 的 分 类 器 。 在 油污 溢出 实例 中 ， 不 同 批 的 数据 会 得 到 不 同 的 溢出 概 
率 。 在 这 些 情况 下 ， 成 本 曲线 可 帮助 用 来 显示 何 时 使 用 何 种 分 类 器 。 

在 上 升 图 、ROC 曲 线 或 反馈 率 -精确 率 曲线 上 ， 每 一 个 点 代表 一 个 由 某 种 算法 (如 朴素 由 
叶 斯 算法 ) 取 不 同 阅 值 所 获得 的 分 类 器 。 成 本 曲线 中 每 个 分 类 器 由 一 条 直线 来 代表 ， -系列 
的 分 类 器 将 扫 出 “条 弯曲 的 分 类 器 包 络 线 ， 它 的 下 限 显 示 出 这 种 类 型 的 分 类 器 当 参 数 选择 适 
当时 性 能 表现 将 如 何 好 。 图 5-4b 几 一 系列 的 灰 线条 展示 了 这 些 。 如 果 继 续 下 去 ， 最 终 将 打出 
图 中 的 那 条 抛物 线 点 虚线 。 

分 类 器 B 的 工作 区 间 在 概率 成 本 值 约 0.25 到 0.75 之 间 。 在 这 个 区 间 之 外 ， 由 虚线 表示 的 其 
他 分 类 器 性 能 比 B 要 好 。 假 设 ， 我 们 决定 要 在 这 个 工作 区 中 使 用 分 类 器 B 并 在 这 个 工作 区 之 上 
或 之 下 的 范围 使 用 其 他 合适 分 类 器 。 所 有 在 抛物 线 上 的 点 肯定 都 比 这 个 方案 要 好 ， 但 究竟 有 
多 好 ? 从 ROC 曲 线 的 角度 很 难 回答 这 个 问题 ， 但 从 成 本 曲线 来 看 就 很 容易 解答 。 当 概率 成 本 
值 在 0.5 左 右 时 ， 性 能 差异 可 忽略 不 计 ， 当 小 于 0.2 或 大 于 0.8 时 ， 也 几乎 看 不 到 差异 。 最 天 的 
差异 发 生 在 概率 成 本 值 为 0.25 和 0.75 时 ， 差 异 约 有 0.04， 即 最 大 可 能 成 本 值 的 4% 。 


5.8 评估 数值 预测 


我 们 目前 所 讨论 的 评估 方法 都 是 有 关 分 类 预测 问题 的 ， 而 不 是 数值 预测 问题 。 要 使 用 独 
立 于 训练 集 之 外 的 测试 集 ， 如 旁 置 法 、 交 叉 验 证 法 来 做 性 能 评估 ， 这 个 基本 原理 同样 适用 本 


数值 预测 。 而 由 计算 误差 率 所 提供 的 基本 定性 方面 的 量度 已 不 再 适合 :错误 不 再 是 简单 的 有 


或 没有 的 问题 ， 错 误会 呈现 不 同 的 大 小 。 

表 5-8 中 总 结 了 几 种 方法 ， 可 用 来 评估 数值 预测 成 功 与 否 。 对 测试 实例 的 预测 值 为 p,, p,, …， 
Pn» SAB Aa, an o, a,。 注 意 p; 在 这 里 与 上 -一 节 中 提 到 的 有 非常 大 的 区 别 ， 上 节 中 是 指 预 
测 结果 为 第 ;类 的 概率 ， 这 里 是 指 对 第 ;个 测试 实例 的 预测 值 。 

均 方 误差 (mean-squared error) 是 最 常用 的 基本 方法 ， 有 时 再 取 其 平方 根 获得 与 预测 值 
一 致 的 尺度 。 在 许多 数学 技术 中 (如 第 4 章 中 讨论 的 线性 回归 ) 都 应 用 均 方 误差 ， 因 为 在 数学 
处 理 上 它 似 乎 是 最 容易 方法 ， 正 如 数学 家 们 说 的 “循规蹈矩 ">、 但 是 ， 这 里 我 们 把 它 当 作 是 - 
种 性 能 量度 ， 而 所 有 的 性 能 量度 都 是 易于 计算 的 ， 因 此 均 方 误差 没有 什么 优势 。 问 题 是 它 是 
否 是 合适 的 量度 方法 呢 ? 
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平均 绝对 误差 (mean absolute error) 是 另 一 种 可 供 选 择 的 方法 : 将 各 个 误差 的 大 小 取 平 
均值 ， 不 考虑 它们 的 正 负 符 号 。 均 方 误差 趋向 夸大 外 围 物 (outlier)， 即 预测 误差 比 其 他 大 的 
实例 的 影响 ， 而 绝对 误差 没有 这 方面 的 影响 ， 对 所 有 的 错误 ， 根 据 它们 的 大 小 公平 对 待 。 

有 时 相对 误差 比 绝对 误差 值 更 重要 。 举 例 来 说 ， 如 果 说 10% 的 误差 率 无 论 对 于 预测 值 为 
500 而 其 中 误差 值 50， 还 是 对 于 预测 值 为 2 而 其 中 误差 值 0.2 的 情况 下 是 同样 重要 的 ， 那 么 绝对 
误差 的 平均 值 就 毫 无 意义 了 ， 而 考虑 相对 误差 比较 适当 。 可 以 在 计算 均 方 误差 或 平均 绝对 误 
差 中 使 用 相对 误差 而 将 这 个 问题 考虑 进去 。 

表 5-8 中 的 相对 平方 误差 (Relative squared error) 含义 有 些 特别 。 这 个 误差 是 由 预测 器 和 
另 一 个 简单 的 预测 器 相 比 较 而 得 到 的 。 这 里 所 指 的 简单 预测 器 只 是 训练 集 真 实数 值 的 平均 值 。 
因此 相对 平方 误差 是 将 该 预测 器 总 的 平方 误差 正常 化 ， 即 除 以 缺 省 预测 器 总 的 平方 误差 。 

下 一 个 测量 误 差 称 为 相对 绝对 误差 (Relative absolute error)， 其 实 只 是 将 总 的 绝对 误差 同 
样 进行 正常 化 。 这 三 个 相对 误差 测量 方法 都 是 使 用 预测 平均 值 的 简单 预测 器 误差 进行 正常 化 。 


表 5-8 数值 预测 的 性 能 衡量 
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s, = PPM gg Dalai) 


n-1 n-l 








注 : Pp 为 预测 值 ，a HARE 

表 5-8 中 的 最 后 … 项 是 相关 系数 (Correlation coefficient)， 它 是 测量 真实 值 a 和 预 油 值 p 之 
间 的 统计 相关 性 。 相 关系 数值 从 完全 相关 时 等 于 1， 到 完全 不 相关 时 等 于 0， 再 到 反 向 完全 相 
关 时 等 于 - 1。 当然 ， 对 一 个 合理 的 预测 方法 来 说 是 不 会 出 现 负数 的 。 相 关 性 和 其 他 的 测量 方 
法 比较 起 来 有 些 不 同 ， 因 为 它 是 量度 独立 的 ， 如 果 你 得 到 一 组 具体 预测 值 ， 当 真实 值 不 变 而 
所 有 的 预测 值 都 乘 以 某 个 常 因子 时 ， 它 的 相关 系数 是 不 会 改变 的 。 这 个 常 因子 在 分 子 S。 的 每 
一 项 中 出 现 、 也 在 分 母 Sr 的 每 一 项 中 出 现 ， 因 此 可 以 相互 抵消 。( 这 个 特性 在 相对 误差 中 不 成 
立 ， 如 果 你 将 所 有 的 预测 值 都 乘 以 一 个 较 大 的 常数 ， 那 将 使 预测 值 和 真实 值 的 差 值 明显 变化 ， 
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从 而 使 误差 百分率 也 明显 变化 。) 另 一 个 不 同 点 在 于 ， 好 性 能 的 预测 器 其 相关 系数 较 大 ， 而 用 
其 他 方法 计算 误差 率 时 、 好 性 能 的 预测 器 误差 值 较 小 。 
表 5-9 四 种 数值 预测 模型 的 性 能 衡量 


A B C D 
Sy Hy ALR RE 67.8 91.7 63.3 57.4 
Bye KE 41.3 38.5 33.4 29.2 
BREE Py MUTE 42.2% 57.2% 39.4% 35.8% 
相对 绝对 误 甘 43.1% 40.1% 34.8% 30.4% 
相关 系数 0.88 0.88 0.89 0.91 





对 于 -种 给 定 情形 ， 使 用 何 种 测量 方法 比较 合适 ， 只 有 通过 分 析 各 种 应 用 本 身 来 决定 。 
我 们 试图 使 什么 达到 最 小 化 ” 不同 误差 类 型 的 成 本 是 多 少 ? 这 些 经 常 都 是 不 易 决 定 的 。 平 方 
训 差 和 平方 根 误差 测量 方法 对 大 差异 加 权 要 比 小 差异 重 得 多 ， 而 绝对 误差 不 是 这 样 。 取 平方 
根 ( 均 方 根 误差 ) 的 方法 只 是 降低 量度 单位 等 级 使 其 与 预测 值 一 致 。 相 对 误差 试图 均衡 答 出 
安 最 基本 的 可 预知 性 或 不 可 预知 性 、 如 果 预 测 值 相当 接近 平均 值 ， 那 么 认为 预测 较 好 ， 相 对 
误差 值 均衡 了 这 点。 和 否则、 如 果 误 差 在 种 情形 下 比 在 另 一 种 情形 下 大 很 多 ， 也 许 是 因为 
企 前 “种 情形 下 数值 原本 变化 幅度 较 大 ， 因 此 很 难 预测 ， 而 并 非 是 预测 器 性 能 变 差 了 。 

值得 庆幸 的 是 .在 大 多 数 实际 情形 中 ， 最 好 的 数值 预测 方法 无 论 使 用 何 种 误差 测量 法 结 
末 都 是 最 好 的 。 例 如 ， 表 5-9 列 出 了 四 种 不 同 的 数值 预测 技术 在 某 个 数据 集 上 ， 采 用 交叉 验证 
法 的 测试 结果 。 根 据 5 种 误差 计算 结果 ， 方 法 D 是 最 好 的 : 所 有 误差 测量 法 的 误差 值 最 小 ， 相 
关系 数 最 大 。 方 法 C 列 第 二 位。 方法 A 和 B 的 性 能 是 有 争议 的 : 它们 的 相关 系数 相等 ， 从 均 方 
误差 和 相对 平方 误差 来 看 ，A 比 B 好 ; 但 从 绝对 误差 和 相对 绝对 误差 来 看 ， 结 论 正 相 反 。 这 个 
六 蜡 或 许 是 为 了 特别 强调 外 围 物 应 用 了 平方 运算 而 产生 的 。 

当 比 较 两 种 不 同 数值 预测 的 学 习 方案 时 ，5.5 节 中 所 述 的 方法 也 是 可 行 的 。 差 别 只 在 进行 
T APE IRI significance test) 时 ， 成 功率 被 适当 的 性 能 衡量 ( 如 均 方 根 误差 ) 所 替代 了 。 


5.9 最 短 描述 长 度 原理 


机 器 学 习 方 案 所 学 到 的 是 样本 所 描述 的 关于 某 个 领域 的 一 种 “理论 "， 这 个 理论 是 有 预测 
力 的 ， 能 揭示 有 关 这 个 领域 的 新 的 事实 ， 换 个 说 法 就 是 能 预测 未 知 实例 的 类 。 理 论 是 -- 个 相 
当 安 大 的 术语 : 在 这 里 我 们 只 是 指 … -个 有 预 而 力 的 模型 ， 因 此 理论 有 可 能 由 决策 树 或 一 系列 
规则 所 组 成 、 它 们 不 必 比 这 更 理论 化 。 

长 期 以 来 ， 科 学 界 -一贯 认 为 在 其 他 条 件 相 同 的 情况 下 ， 简 单 的 理论 比 复杂 的 理论 更 可 取 。 
这 便 是 继 中 人 世纪 哲学 家 William. Occam 之 后 著名 的 Occam 霜 刀 。Occam 章 刀 剃 去 了 理论 的 哲学 
毛发 。 它 的 观点 是 : 最 好 的 科学 理论 应 是 最 简单 的 ， 但 能 解释 所 有 的 事实 真相 。 正 如 爱 因 斯 
坦 的 一 名 名 言 ,“ 所 有 东西 都 要 尽 可 能 地 简单 化 ， 没 有 更 加 简单 的 ”当然 ， 在 “其 他 条 件 相 
间 ” 的 背后 隐藏 着 许多 东西 ， 很 难 客观 地 评估 某 个 具体 理论 是 否 真 的 能 “解释 ” 它 所 基于 的 
所 有 事实 真相 ， 这 便 是 科学 界 的 争议 所 在 。 

在 机 器 学 习 中 ， 大 多 数理 论 都 有 误差 。 如 果 说 所 学 的 是 理论 ， 那 么 所 犯 的 错误 就 如 同 是 
这 个 理论 的 例外 。 一 种 确保 其 他 条 件 相同 的 方法 就 是 要 强调 当 判 定理 论 的 “简单 性 ”时 ， 例 
外 所 包含 的 信息 是 理论 的 一 部 分 。 
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想象 -条 并 不 完美 的 理论 ， 它 有 几 个 例外 。 这 个 理论 不 能 解释 所 有 的 数据 ， 但 可 以 解释 大 部 
。 我 们 所 要 做 的 就 是 将 例外 附加 在 理论 中 ， 清 楚 地 说 明 这 些 是 例外 。 新 的 理论 变 大 了 : 这 是 代 
， 非 常 公平 ， 是 为 它 没有 能 力 解释 所 有 数据 而 付出 的 。 然 而 ， 与 全 面 而 准确 的 复杂 理论 相 比 ， 
始 理论 的 简单 性 〈 称 之 为 简练 是 否 有 些 过 奖 了 ? ) 也 许 足以 弥补 它 不 能 解释 所 有 东西 的 缺陷 。 

例如 ， 开 普 勒 (Kepler ) 在 那个 时 代 提 出 的 三 条 行星 运行 规律 不 如 哥 白 尼 对 托 勒 密 
(Ptolemaic) 本 轮 理论 的 最 后 加 细 那 样 ， 能 贴切 地 解释 所 有 已 知 数据 ， 它 们 的 优势 却 在 于 复杂 
度 很 低 ， 这 便 弥补 了 它 的 些许 不 准确 。 开 普 勒 很 清楚 简洁 理论 的 益处 ， 尽 管 这 个 理论 违背 了 
他 自己 的 唯美 观点 ， 它 是 基于 “椭圆 ”而 非 完 美的 圆周 运动 。 他 曾 用 了 一 个 很 有 个 性 的 比喻 : 
“我 清除 了 宇宙 循环 和 旋转 中 最 脏 的 部 分 ， 在 我 身后 留 下 的 只 是 一 车 垃圾 。” 

最 短 描述 长 度 (mininum description length) 或 称 MDL 原 理 是 指 对 于 一 扒 数 据 来 说 ， 最 好 
的 理论 是 最 小 化 使 理论 本 身 大 小 加 上 用 于 说 明 相 关 例 外 所 需 信息 量 ， 即 最 小 的 一 车 垃圾 。 在 
统计 估计 理论 中 ， 已 非常 成 功 地 应 用 在 各 种 参数 拟 合 上 。 在 机 器 学 习 中 应 用 如 下 : 给 定 一 组 
实例 ， 使 用 一 个 学 习 方 案 从 这 些 实例 中 推出 一 条 理论 ， 一 条 很 简洁 的 ， 也 许 不 配 称 为 理论 。 
这 里 借用 通讯 的 比喻 . 想象 这 些 实例 正在 -- 条 毫 无 干扰 的 信道 中 传输 信息 ， 探 测 到 的 任何 相 
似 之 处 都 被 挖掘 出 来 概括 为 更 加 压缩 的 编码 。 根 据 MDL 原 理 ， 最 好 的 概括 便 是 使 进行 概括 通 
讯 所 需 的 位 数 以 及 概括 所 基于 的 样本 数 达 到 最 小 值 。 

现在 和 5.6 节 中 介绍 的 信息 损失 函数 联系 起 来 。 信 息 损 失 函 数 用 传输 实例 所 需 的 位 数 来 衡 
量 误差 ， 由 理论 给 出 概率 预测 。 根 所 MDL 我 们 还 需要 加 入 经 过 适当 编码 的 理论 “规模 ”位 值 ， 
得 到 一 个 反映 理论 复杂 度 的 综合 数值 。MDL 原 理 引 用 了 传输 样本 所 需 的 信息 ， 这 里 样本 是 指 
理论 形成 所 基于 的 样本 ， 即 训练 集 实例 而 非 测 试 集 实例 。 这 时 过 度 拟 合 问题 将 被 避免 ， 因 为 
相对 于 简单 理论 来 说 ， 一 个 复杂 理论 由 于 需要 较 多 的 位 数 来 进行 编码 ， 将 受到 拟 合 的 惩罚 。 

-种 极端 是 -一 个 非常 复杂 、 极 过 度 拟 合 的 理论 在 训练 集 上 没有 任何 错误 。 另 一 种 极端 是 一 个 
非常 简单 的 理论 ( 零 理 论 (null theory )， 它 对 训练 集 的 传输 一 点 帮助 都 没有 。 存 在 于 这 两 者 
之 间 的 是 中 等 复杂 度 的 理论 ， 做 出 的 概率 预测 不 是 很 完美 ， 需 要 通过 传输 一 些 有 关 训 练 集 的 
信息 来 纠正 。MDL 原 理 提 供 了 一 种 比较 所 有 可 能 的 理论 的 方法 ， 从 统一 的 立足 点 来 看 哪 一 种 
是 最 好 的 。 我 们 找到 了 圣杯 : 一 种 只 用 训练 集 而 不 需 独立 的 测试 集 的 评估 方案 。 可 是 也 有 困 
难 之 处 ， 我 们 将 在 后 面 看 到 。 

假设 - -个 学 习 方 案 基于 训练 集 E 的 样本 得 出 一 理论 T， 理 论 编码 所 需 位 数 为 L[ T] (LAR 
长 度 )。 给 定理 论 ， 训 练 集 本 身 编码 位 数 为 L[ ET] LET] 实际 上 是 由 所 有 训练 集成 员 信息 
损失 函数 值 总 和 所 给 定 。 那 么 理论 和 训练 集 描述 长 度 总 和 为 

LIT] +L[ EIT] 
MDL 原 理 建议 采用 使 总 和 达到 最 小 值 的 理论 7。 

MDL 原 理 和 基本 概率 理论 之 间 存 在 着 一 个 显著 的 联系 。 给 定 一 个 训练 集 E， 我 们 寻找 
“可 能 性 最 大 ”的 理论 7， 即 寻找 能 使 后 验 概率 (posteriori probability) Pr[ T| E ] 即 样本 出 现 
后 的 概率 最 大 化 的 理论 。 如 同 在 4.2 节 中 所 见 的 贝 叶 斯 规则 的 条 件 概 率 (conditional 
Probability )、 指 出 


asy 


N 


Pr[E1T]Pr[T] 
Pr[E] 


zà 
oo 
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Pr[7 | E] = 


取 其 负 对 数 ， 
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—logPr{T | E]= ~ logPr[E | T] ~ logPr[T]+logPr[E] 
求 概率 的 最 大 值 相当 于 求 其 负 对 数 的 最 小 值 。 现 在 (如 在 5.6 节 中 所 见 ) 编码 所 需 的 位 数 就 是 
取 其 概率 的 负 对 数 。 而 且 ， 最 后 一 项 log Pri E ] 只 取决 于 训练 集 而 与 学 习 方 案 无 关 。 因 此 ， 选 
择 使 概率 Pr[ TIE ] 达 到 最 大 值 的 理论 等 价 于 选择 使 
LI EIT] +LIT] 
达到 最 小 值 的 理论 。 换 名 话说 ， 就 是 等 价 于 MDL 原 理 ! 

考虑 训练 集 的 理论 后 验 概 率 并 使 其 最 大 化 的 观点 与 MDL 原 理 有 如 此 令 人 许 异 的 关联 ， 更 
增添 了 我 们 对 最 短 描述 长 度 原理 的 信任 。 但 从 中 也 指出 了 在 实践 中 运用 MDL 的 问题 所 在 。 直 
接应 用 贝 叶 斯 理论 的 困难 在 于 如 何 得 到 理论 的 恰当 先 验 概 率 分 布 Pr[ T ]。 在 MDL 公 式 中 ， 问 
题 转换 为 如 何 用 最 有 效 的 方法 将 理论 7 编码 成 位 值 表 示 。 编 码 有 很 多 方法 ， 编 码 和 解码 都 要 依 
赖 于 某 个 共同 的 先决 假设 ， 如 果 你 事先 知道 理论 将 采用 何 种 形式 ， 你 便 能 有 效 地 利用 信息 进 
行 编码 。 究 竟 怎 样 对 理论 7 进行 编码 呢 ? 困难 随 着 对 问题 细节 的 深入 出 现 了 。 

根据 7， 对 到 进行 编码 得 到 LI EIT ] 比 较 直接 。 先 前 已 遇 到 过 信息 损失 函数 ， 但 实际 上 当 
你 对 训练 集中 的 每 个 成 员 依次 编码 ， 你 是 在 进行 一 种 序列 编码 而 非 对 一 个 数据 集 编码 。 没 有 
必要 将 训练 集 按 一 定 的 顺序 传送 ， 考 虑 这 点 应 当 有 可 能 减少 所 需 的 位 数 。 常 用 的 近似 方法 是 
简单 地 减 去 log n! (这 里 x 是 训练 集 E 所 含 成 员 数 量 )， 这 是 对 训练 集 按 某 特 定 排列 进行 说 明 所 
需 的 位 数 (这 个 值 对 所 有 的 理论 来 说 都 是 一 样 的 ， 实 际 上 并 不 影响 不 同 理论 之 间 进 行 比较 )。 
但 是 ， 人 们 可 以 想象 利用 个 体 误差 频率 来 减少 对 误差 的 编码 的 位 数 。 当 然 ， 误 差 编 码 使 用 的 
方法 越 是 精密 ， 对 理论 编码 的 精密 要 求 就 越 低 。 因 此 ， 判 断 一 条 理论 是 否 合理 ， 在 部 分 程度 
上 取决 于 如 何 对 误差 进行 编码 。 注 重 细节 ， 并 非 想像 中 那么 简单 。 

在 这 里 我 们 不 再 深入 讨论 不 同 编码 方法 的 细节 。MDL 方 法 单单 基于 训练 集 数据 来 评估 学 
习 方 案 的 问题 是 一块 活 跃 的 研究 领域 ， 对 此 研究 者 们 持 有 不 同 的 意见 。 

如 这 节 的 开头 那样 ， 我 们 还 用 哲学 观点 来 做 结尾 。 非 常 感谢 Occam 霜 刀 ， 简 洁 理论 优先 于 
复杂 理论 ， 站 在 哲学 角度 说 是 个 公理 ， 而 不 是 能 由 基本 理论 推 证 出 来 的 。 这 是 我 们 所 受 的 教育 
以 及 所 处 的 时 代 的 产物 ， 似 乎 是 不 证 自明 的 。 简 洁 为 先是 〈 或 也 许 是 ) 文化 偏好 ， 而 非 绝 对 的 。 

希腊 哲学 家 伊 壁 鸠 鲁 (Epicurus, 喜好 美食 、 美 酒 ， 提 倡 享受 世俗 快乐 ， 当 然 不 是 过 分 的 ) 
提出 了 几乎 相反 的 观点 。 他 的 多 种 解释 原理 (principle of multiple explanations) 建议 “如 果 多 
种 理论 都 与 数据 相符 ， 保 留 这 些 理论 "， 他 的 基本 观点 是 如 果 几 种 解释 是 -- 致 的 ， 考 虑 所 有 的 
解释 也 许 能 得 到 更 精确 的 结论 。 总 之 ， 武 断 地 丢弃 任何 解释 都 是 不 科学 的 。 这 种 观点 引出 了 基 
于 实例 的 学 习 方法 ， 保 留 所 有 的 证 据 提供 预 而 ， 然 后 使 用 组 合 决策 的 方法 ， 如 装 袋 (bagging ) 
和 提升 (boosting ) (将 在 第 7 章 中 讨论 )， 它 们 确实 是 靠 组 合 多 种 解释 来 获得 预测 力 的 。 


5.10 聚 类 方法 中 应 用 MDL 原 理 


最 短 描述 长 度 原理 的 好 处 之 一 是 不 像 其 他 的 评估 标准 ， 可 适用 于 各 种 完全 不 同 的 情况 。 虽 然 
如 我 们 先前 所 见 ，MDL 在 某 种 意义 上 同 贝 叶 斯 规则 一 样 ， 给 理论 设计 一 套 编码 方案 等 价 于 要 赋 
于 一个 先 验 概率 分 布 。 编 码 方案 较 先 验 概率 ,在 某 种 具体 条 件 下 考虑 编码 方案 更 切实 、 容 易 … 些 。 
为 了 说 明 这 点， 我 们 简单 地 介绍 一 下 MDL 是 怎样 应 用 在 聚 类 方法 中 的 ， 而 不 进入 编码 描述 。 

聚 类 似乎 很 难 评 佑 ， 分 类 或 关联 学 习 都 有 一 个 客观 的 成 功 判定 标准 ， 即 对 测试 数据 的 巴 
测 是 正确 还 是 错误 ， 而 聚 类 却 非 如 此 。 唯 一 可 行 的 评估 方法 似乎 是 要 看 学 习 的 结果 ， 即 聚 类 
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结果 是 否 有 助 于 实际 应 用 环境 。( 值得 一 提 的 是 ， 这 点 适用 于 评估 所 有 的 学 习 方 法 ， 并 非 单 指 
REHE. ) 

BRT ee, RAJAA BEL RKF. (Bi ERRER RAH IAEA 
XK 个 聚 类 ， 如 果 这 些 类 是 天 然 的 ， 用 它们 对 民 进 行 编码 可 能 会 是 很 有 效 的 ， 最 好 的 聚 类 方法 将 
支持 最 有 效 的 编码 。 

按 给 定 的 察 类 方案 ， 对 训练 集 E 中 的 实例 进行 编码 的 一 种 方法 是 从 聚 类 中 心 ( 聚 类 中 所 有 
实例 的 每 个 属性 的 平均 值 ) 的 编码 开始 ， 然 后 将 E 中 的 每 个 实例 依据 它 的 属性 值 和 聚 类 中 心 的 
关系 ,可 能 使 用 每 个 属性 值 与 中 心 点 属性 值 的 差 值 , 传送 到 它 应 属于 的 那 一 类 中 (用 logx 位 )。 
使 用 平均 值 或 差 值 ， 这 种 描述 方法 的 前 提 条 件 需 是 数值 属性 ， 同 时 也 提出 了 一 个 棘手 的 问题 
那 便 是 怎样 有 效 地 对 数值 进行 编码 。 定 性 属性 可 以 用 类 似 的 方法 处 理 ， 每 个 聚 类 都 存在 一 个 
属性 值 概率 分 布 ， 不 同 的 豪 类 属性 概率 分 布 不 同 。 这 样 ， 编 码 问题 就 变 得 很 直接 了 : 将 属性 
值 根据 相应 的 属性 概率 分 布 进行 编码 ， 这 是 一 种 标准 的 数据 压缩 操作 。 

如 果 数 据 呈 现 出 相当 明显 的 聚 类 ， 使 用 这 种 技术 将 使 描述 长 度 较 不 用 任何 罕 类 而 简单 地 
传输 训练 集 E 中 的 数据 要 短 。 但 是 ， 如 果 豪 类 效果 不 很 明显 ， 描 述 长 度 韭 但 不 能 减少 ， 很 可 能 
要 增加 。 这 时 ， 传 输 属 性 值 的 特定 聚 类 分 布 所 用 的 耗费 大 于 对 每 个 训练 实例 按 相应 的 聚 类 进 
行 编码 所 获 的 益处 。 这 正 是 需要 应 用 精密 编码 技术 的 地 方 。 一 旦 聚 类 中 心 能 够 沟通 ， 就 有 可 
能 通过 和 相关 的 实例 合作 来 实现 自 适 应 地 传输 特定 京 类 的 概率 分 布 ， 实例 本 身 能 帮助 定义 概 
率 分 布 ， 概 率 分 布 又 帮助 定义 实例 。 这 里 我 们 不 再 深入 编码 技术 ， 重 点 是 MDL 公 式 ， 如 被 合 
适 地 运用 ， 是 以 灵活 地 支持 诊 类 的 评估 ， 但 在 实践 中 要 得 到 满意 的 效果 并 不 容易 。 


5.11 补充 读物 


统计 学 的 置信 度 试验 在 大 多 数 统计 学 教材 中 都 有 提 到 ， 此 外 还 提供 正 态 分 布 和 学 生 氏 分 
布 表 。( 我 们 参考 了 一 本 非常 优秀 的 教材 ， Wild 和 Seber (1995 年 )。 如 果 你 能 有 机 会 得 到 ， 我 
们 极力 推荐 此 书 . )“Student” 是 统计 学 家 William Gosset 的 笔名 ， 他 于 1899 年 在 爱 尔 世 都 柏林 
的 Guinness 酿酒 广 任 化 学 家 ， 发 明了 ;测试 ， 用 以 处 理 酿酒 业 中 使 用 少量 的 样品 测试 来 实行 质 
量 控制 。 纠 正 重复 取样 测试 是 由 Nadeau 和 Bengio (20034) 提议 的 。 交 叉 验 证 法 是 … 种 标准 
的 统计 技术 ， 已 广泛 应 用 于 机 器 学 习 中 ， 并 被 Kohavi ( 1995 年 ) SHA S| GH (bootstrap) 
进行 比较 。 自 引导 技术 在 Efron 和 Tibshirani (1993 年 ) 中 进行 了 详细 的 介绍 。 

Kappa 统计 量 是 由 Cohen (1960 年 ) 提出 的 。Ting (2002 年 ) 研究 了 将 5.7 节 中 给 出 的 使 
一 类 问题 学 习 方 案 具 有 成 本 敏感 性 的 算法 ， 采 用 启发 式 的 方法 推广 到 多 类 问题 的 情形 。Berry 
和 Linoff (1997 年 ) BGR SEA, Egan (1975 年 ) 则 介绍 了 使 用 ROC 对 信号 检测 理论 的 分 
析 ， 这 项 工作 后 又 被 Swets (1988 年 ) 延续 为 对 诊断 系统 的 可 视 化 和 行为 分 析 ， 还 被 应 用 于 
药物 学 上 (Beck 和 Schultz 1986 年 )。Provost 和 Fawcett ( 1997 年 ) 带 来 的 ROC 曲 线 的 分 析 方法 
引起 了 机 器 学 习 及 数据 挖掘 界 的 注意 。Witten 等 (1999 年 ) 解释 了 反馈 率 -精确 率 曲 线 在 信息 
检索 系统 中 的 应 用 ，van Rijsbergen (1979 年 ) 描述 了 F 测 量 。 Drummond 和 Holte (2000 年 ) 
介绍 了 成 本 曲线 并 对 它们 的 特性 做 了 研究 。 

最 短 摘 述 长 度 原 理 是 由 Rissanen (1985 年 ) 陈述 的 ，Koestler(1964 年 ) 细 述 了 开 普 勒 的 
三 个 行星 运动 规律 的 发 现 以 及 开 普 勒 本 人 对 此 发 现 的 怀疑 。 

Li 和 Vityani (1992 年 ) 引用 了 Asmis (1984 年 ) ， 提 出 了 伊 壁 鸠 鲁 的 多 种 解释 原理 。 








第 6 章 KM: 真正 的 机 器 学 习 方 案 


我 们 已 经 了 解 了 机 器 学 习 方 法 的 几 种 基本 思路 ， 并 详细 学 习 了 怎样 评估 它们 应 用 在 实际 
数据 挖掘 问题 中 的 性 能 表现 。 这 样 ， 我 们 做 好 了 充分 准备 来 了 解 真实 的 、 具 有 产业 价值 的 机 
器 学 习 算 法 。 目 标 是 既 要 在 概念 上 ， 又 要 在 相当 多 的 技术 细节 上 解释 这 些 算法 ， 使 大 家 能 彻 
底 理解 算法 并 意识 到 实现 算法 过 程 中 出 现 的 关键 问题 。 

事实 上 ， 第 4 章 中 所 描述 的 最 简单 的 方法 和 广泛 应 用 于 实践 中 的 真实 算法 之 间 是 有 很 大 差 
点 的 。 虽 然 原 理 相 同 ， 输 入 和 输出 一 一 知识 表达 方法 亦 相同 ， 但 是 实践 中 的 算法 更 为 复杂 。 
主要 是 因为 这 些 算法 必须 能 成 熟 、 明 智 地 处 理 真 实 世 界 中 的 问题 ， 如 数值 属性 、 残 缺 值 以 及 
最 富 挑战 性 的 干扰 数据 。 为 了 解 各 种 不 同方 案 是 如 何 来 处 理 干扰 问题 的 ， 我 们 要 利用 在 第 5 章 
中 学 到 的 一 些 统计 学 知识 。 

第 4 章 以 如 何 推 理 出 基本 规则 为 开场 白 , 接着 分 析 统 计 模 型 和 决策 树 。 然 后 转向 规则 归纳 ， 

187) 继而 是 关联 规则 、 线 性 模型 、 基 于 实例 学 习 的 最 近邻 方法 和 聚 类 。 除 了 已 经 在 前 面 充分 探讨 
过 的 关联 规则 外 ， 本 章 将 详 述 所 有 这 些 主题 。 
本 章 从 决策 树 归纳 开始 ， 继 而 对 C4.5 系 统 进行 完整 描述 。C4.5 系 统 是 素 有 里 程 碑 之 称 的 
-种 决策 树 程 序 、 也 许 是 到 月 前 为 止 在 实践 中 应 用 最 为 广泛 的 机 器 学 习 工 具 。 接 下 来 讨论 决 
策 规 则 归纳 。 虽 然 思想 方法 简单 ， 但 在 实践 中 要 归纳 决策 规则 以 达到 能 与 高 水 准 的 决策 树 相 
类 似 的 性 能 还 是 相当 困难 的 。 多 数 高 性 能 的 规则 归纳 器 先 找 出 -个 初始 的 规则 集 ， 然 后 对 规 
则 集 进行 精练 ， 精 练 则 是 通过 一 个 相当 复杂 的 优化 过 程 ， 技 弃 或 调整 个 体 规则 使 规则 集 能 更 
好 地 虐 作 。 本 章 还 阐述 了 应 用 于 干扰 数据 的 规则 学 习 所 基于 的 思想 ， 然 后 介绍 最 近 研 发 的 使 
用 局 部 决策 树 (partial decision tree) 的 方案 ， 这 个 方案 已 被 证 明 能 达到 与 其 他 高 水 准 的 规则 
学 习 器 同样 好 的 性 能 ， 同 时 又 避免 去 使 用 一 些 复杂 而 特别 和 的 方式 。 此后， 再 简要 地 来 看 一 下 
怎样 建立 第 3.5 节 中 介绍 的 包含 例外 的 规则 。 

支持 向 量 机 (support vector machine) 的 引入 引起 了 人 们 对 线性 模型 的 兴趣 。 支 持 向 量 机 
是 一 种 线性 模型 和 基于 实例 学 习 模 型 的 混合 体 ， 它 从 每 个 类 中 挑选 了 很 少数 量 的 、 称 为 支持 
向 量 的 临界 实例 ， 然 后 建立 一 个 线性 判别 函数 (linear discriminant function )， 尽 可 能 地 将 各 
个 类 别 分 隔 开 。 这 些 系统 可 通过 在 函数 中 包含 另外 一 部 分 非 线性 项 ， 从 而 超越 了 线性 边界 的 
限制 ， 使 形成 二 次 、 三 次 ， 甚 至 更 高 次 的 决策 边界 成 为 可 能 。 在 第 4.6 节 中 介绍 的 感知 器 可 采 
用 同样 的 技术 来 实现 复杂 的 决策 边界 。 一 项 用 于 扩展 感知 器 的 老 技 术 就 是 将 各 个 单元 连接 起 
来 形成 多 层 “ 神 经 网 络 * 。 所 有 这 些 思想 都 在 6.3 节 中 进行 了 叙述 。 

下 一 节 的 内 容 是 记述 基于 实例 的 学 习 器 ， 展 示 了 在 第 4.7 节 中 介绍 的 简单 的 最 近邻 方法 ， 
并 县 展示 了 几 种 具有 推广 性 的 更 为 有 效 的 方法 。 此 后 把 适用 于 数值 预测 的 线性 回归 法 延伸 为 
一 个 更 为 复杂 的 过 程 ， 从 而 形成 第 3.7 节 中 介绍 的 树 表达 ， 继 续 讨 论 局 部 加 权 回 妇 , 一 种 用 于 
数值 预 铀 、 基 于 实例 的 策略 。 随 后 再 回 到 聚 类 方法 ， 回 顾 一 些 比 简单 的 /均值 更 为 复杂 的 方法 ， 
这 些 方法 产生 分 级 聚 类 和 含有 概率 的 豪 类 。 最 后 讨论 贝 叶 斯 网 络 ， 一 种 非常 有 潜力 的 朴素 由 

叶 斯 法 的 延伸 ， 它 能 处 理 存在 内 部 依赖 关系 的 数据 集 ， 使 朴素 贝 叶 斯 法 不 再 那么 “朴素 "。 
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由 于 本 章 所 涉及 的 内 容 特 性 ， 它 与 本 书 的 其 他 章节 有 所 不 同 。 每 节 都 可 单独 阅读 ， 是 独 
立 的 ， 在 每 节 最 后 的 讨论 部 分 包含 各 自 的 补充 读物 。 


6.1 决策 树 

第 -个 要 详细 演示 的 机 器 学 习 方案 来 自 第 4.3 节 所 描述 的 、 用 于 建立 决策 树 的 简单 的 分 治 
算法 。 在 它 用 于 解决 实际 问题 之 前 ， 需 要 在 几 个 方面 得 到 扩展 。 首 先 要 考虑 如 何 处 理 数值 属 
性 ， 还 要 考虑 处 理 残缺 值 的 问题 。 然 后 ， 还 需要 处 理 所 有 有 关 修 前 决策 树 的 重要 问题 ， 虽 说 
用 分 治 算法 建立 的 决策 树 在 训练 集 上 表现 良好 ， 却 常常 由 于 和 训练 数据 过 于 拟 合 而 不 能 很 好 
地 推广 到 独立 的 训练 集 上 上 上。 其 次 要 考虑 如 何 将 决策 树 转化 为 分 类 规则 。 所 有 这 些 方面 都 受到 
决策 树 算法 C4.5 的 引导 ， 它 和 它 的 商业 后 继 版 C5.0 已 经 成 为 用 于 机 器 学 习 的 现成 的 得 力 工具 。 
最 后 将 看 到 C4.5 和 C5.0 本 身 提供 的 选择 方案 。 


6.1.1 数值 属性 

以 前 描述 过 的 方法 只 是 在 所 有 属性 都 是 名 词性 属性 时 才 有 效 ， 但 正如 我 们 所 了 解 的 ， 大 
多 数 真 正 的 数据 集 都 包含 一 些 数值 属性 。 将 算法 扩展 来 对 付 这 些 属 性 并 不 是 太 难 。 对 于 数值 
属性 ， 将 可 能 性 限定 为 双向 分 裂 或 二 元 分 裂 。 假 设 我 们 使 用 有 一 些 数 值 属性 的 天 气 数据 (K 
1-3)， 那 么 ， 在 考虑 温度 属性 的 第 一 个 分 裂 时 ， 牵 涉 到 的 温度 值 是 : 

64 65 68 69 70 71 72 75 80 81 83 85 


no yes 
yes no yes yes yes no no yes yes no 


(HSER RR). HALT TREO, MRAP RIBERA DN 
话 、 断 点 就 是 8 个 。 每 个 信息 增 量 可 以 用 通常 的 方法 计算 。 例 如 ， 用 temperature < 71.5470 
试 ， 产 生 4 个 yes 和 2 个 no， 用 temperature >71.5 进行 测试 ， 则 产生 5 个 yes 和 3 个 no， 所 以 这 个 
测试 的 信息 值 是 : 

info ([4,2],[5,3]) = (6/14) x info ([4,2]) + (8/14) x info ({5,3]) = 0.939 bits 
虽说 采用 更 为 复杂 的 方法 可 能 会 获得 更 多 的 信息 ， 但 在 数值 间 一 半 的 地 方 设 定数 字 阔 值 作为 
概念 划分 界限 是 很 普通 的 做 法 。 例 如 ， 下 面 将 看 到 一 种 最 简单 的 基于 实例 学 习 法 ， 它 将 概念 
划分 界限 冶 于 概念 空间 的 中 间 ， 人 们 还 建议 采用 其 他 一 些 不 只 是 包括 两 个 最 近邻 样本 的 办 法 。 

当 用 分 治 法 建立 决策 树 时 ，-~ 旦 选 定 第 一 个 要 被 分 裂 的 属性 ， 就 在 树 的 顶层 创建 一 个 节 
点 对 这 个 属性 进行 分 裂 ， 算 法 递归 地 在 每 个 子 节点 上 继续 下 去 。 对 于 每 一 个 数值 属性 ， 从 表 
面 上 看 ， 似 乎 必须 对 每 个 子 节点 的 实例 子 集 重 新 按照 属性 值 进行 排序 ， 事 实 上 这 是 决策 树 归 
纳 程序 通常 使 用 的 编写 方法 。 但 实际 上 并 没有 必要 重新 排序 ， 因 为 在 父 节 点 的 排序 可 以 用 作 
为 每 一 个 子 节点 的 排序 ， 形 成 一 种 快速 的 实现 方法 。 考 虑 天 气 数据 中 的 温度 属性 ， 它 的 属性 
值 排 序 (这 次 包含 重复 的 值 ) 是 : 

64 65 68 69 70 71 72 72 75 75 80 81 83 85 

7 6 5 9 4 14 8 12 10 11 2 13 3 1 
每 个 温度 值 下 面 的 斜体 数字 是 拥有 这 个 温度 值 的 实例 的 序号 ， 因 此 实例 7 的 温度 值 为 64， 实 例 
6 的 温度 值 为 65， 依 此 类 推 。 假 设 决定 在 顶层 对 属性 阴 晴 进行 分 裂 。 考 虑 满足 阴 睛 = sunny 的 
子 节 点 。 实 际 拥有 这 个 阴 睛 属性 值 的 实例 是 第 !、2、8、9 和 11。 如 果 斜 体 的 顺序 和 样本 集 一 - 
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起 储存 (要 为 每 一 个 数值 属性 储存 一 个 不 同 的 顺序 )， 也 就 是 说 ， 实 例 7 指向 实例 6, 实例 6 TF 
向 实例 5， 实例 5 指向 实例 9， 依 此 类 推 ， 那 么 要 依次 读 取 阴 晴 =sunny 的 实例 就 是 一 件 简单 的 
事情 了 。 所 需要 的 只 是 按照 所 示 的 次 序 对 实例 进行 扫描 ， 检 查 每 个 实例 的 阴 上 晴 属 性 值 并 对 拥 
有 适当 属性 值 的 实例 进行 记录 : 

9 8 11 2 1 
这 样 ， 根 据 每 个 数值 属性 ， 将 每 个 实例 子 集 和 实例 的 顺序 一 起 储存 ， 可 以 避免 重复 排序 
须 在 一 开始 就 为 每 一 个 数值 属性 决定 排列 次 序 ; 以 后 就 不 再 需要 排序 了 。 

当 一 个 决策 树 像 4.3 节 所 述 的 那样 对 一 个 名 词性 属性 进行 测试 时 ， 要 为 这 个 属性 的 每 一 
可 能 的 属性 值 创建 一 个 分 支 。 然 而 ， 数 值 属性 的 分 裂 被 限制 为 二 元 的 ， 这 便 造 成 了 数值 属性 
和 名 词性 属性 的 一 个 重大 不 同 : 为 某 个 名 词性 属性 建立 完 分 支 后 ， 便 用 尽 了 属性 所 提供 的 所 
有 信息 ， 而 在 一 个 数值 属性 上 的 后 续 分 裂 还 会 产生 新 的 信息 。 一 个 名 词性 属性 在 从 树 根 到 叶 
节点 的 路 径 中 只 能 被 测试 一 次 ， 而 一 个 数值 属性 则 能 被 测试 许多 次 。 由 于 对 单个 数值 属性 的 
测试 不 是 集中 在 一 起 而 是 分 散 于 路 径 上 的 ， 这 便 造成 树 的 凌乱 而 难以 理解 。 另 有 一 种 方法 ， 
比较 难以 实施 但 可 以 创建 较 易 读 取 的 树 ， 就 是 允许 对 数值 属性 进行 多 重 测试 ， 对 树 中 的 单独 
节点 上 进行 几 个 不 同 常量 的 测试 。 一 个 更 为 简单 但 功效 欠 佳 的 解决 方法 是 如 7.2 节 将 要 讨论 的 
对 属性 进行 事先 离散 。 


6.1.2 残缺 值 


对 决策 树 建立 算法 的 下 一 个 改善 是 关于 残缺 值 问题 的 处 理 。 残 缺 值 是 现实 生活 中 的 数据 
集 所 无 法 避免 的 。 正 如 第 2 章 (2.4 节 ) 所 解释 的 ， 一 种 办 法 是 把 它们 当 作 属性 的 另 一 个 可 能 
值 来 处 理 ; 当 属性 在 某 些 情况 下 缺失 严重 的 话 ， 这 种 办 法 是 适当 的 。 那 样 的 话 不 需要 再 采取 
进一步 的 处 理 。 但 如 果 某 个 实例 缺少 属性 值 不 特别 明显 的 话 ， 就 需要 一 个 更 精细 的 解决 方法 。 
简单 地 忽略 所 有 含有 残缺 值 的 实例 当然 是 很 诱 人 的 办 法 ， 但 这 种 解决 办 法 过 于 昔 刻 而 不 太 可 
行 。 有 残缺 值 的 实例 往往 提供 了 相当 多 的 信息 。 有 时 ， 含 有 残缺 值 的 属性 在 决策 中 并 不 起 作 
用 ， 因 此 这 些 实例 和 其 他 实例 一 样 好 。 

有 -个 问题 就 是 ， 当 有 - 些 要 测试 的 属性 有 残缺 值 时 ， 如 何 将 决策 树 应 用 到 这 个 实例 中 。 
在 3.2 节 中 示范 了 一 个 解决 方法 ， 想 象 将 这 个 实例 分 成 几 个 部 分 ， 采 用 数值 加 权 方 案 ， 将 各 个 
部 分 按 比例 沉降 在 各 个 分 支 上 ， 这 个 比例 是 指 沉降 在 各 个 分 支 上 的 训练 实例 数量 比例 。 最 终 
实例 的 各 个 部 分 都 会 到 达 某 一 个 叶 节点 ， 这 些 叶 节点 的 决策 也 必须 重新 结合 叶 节 点 事先 定好 
的 权重 而 做 出 。 在 4.3 节 中 描述 的 信息 增益 和 增益 率 的 计算 同样 可 以 应 用 于 部 分 实例 。 使 用 权 
值 代替 整数 累计 ， 来 计算 这 两 个 增益 值 。 

另外 一 个 问题 就 是 ， 一 旦 分 裂 属 性 选 定 后 ， 应 该 如 何 分 裂 训 练 集 ， 从 而 在 每 个 子 节点 上 递 
归 运 行 决策 树 形 成 过 程 。 需 要 运用 同样 的 加 权 程 序 。 相 关 的 属性 值 出 现 残缺 的 实例 从 概念 上 分 
裂 成 几 个 部 分 ， 每 个 分 支 含 -一 个 部 分 ， 分裂 比例 就 是 沉降 到 各 个 分 支 上 的 已 知 实例 的 比例 。 这 
个 实例 的 各 个 部 分 在 下 层 节 点 为 决策 做 贡献 ， 同 样 可 用 一 般 的 信息 增益 计算 方法 ， 只 是 它们 是 
加 了 权 值 的 。 当 然 ， 如 果 其 他 属性 的 值 也 有 残缺 ， 在 下 层 节点 上 可 能 还 需要 进 --- 步 分 裂 。 


6.1.3 修剪 
在 第 1 章 的 劳资 协商 问题 中 ， 我 们 发 现 图 1-3a 的 简单 决策 树 实际 上 比 图 1-3b 中 更 为 复杂 的 
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树 的 性 能 表现 更 好 ， 也 比较 能 理解 。 现 在 就 来 学 习 如 何 修剪 决策 树 。 

先 建立 一 个 完整 的 决策 树 然 后 对 其 修剪， 采取 后 修剪 (postpruning) 策略 (有 时 称 为 反 
向 修剪 ) 而 不 是 前 修剪 (prepruning ) (或 称 正 向 修剪 ) 策略 。 前 修剪 需要 在 建立 树 的 过 程 中 
决定 何 时 停止 建立 子 树 ， 非 常 吸引 人 的 一 面 ， 因 为 这 能 避免 建立 某 些 子 树 所 需 的 全 部 工作 ， 
而 这 些 子 树 是 将 来 要 被 含 弃 的 。 当 然 ， 后 修剪 确实 也 能 提供 一 些 优势 。 例 如 ， 两 个 属性 单独 
不 能 有 所 贡献 ， 但 两 者 结合 起 来 预测 力 却 很 强 ， 一 种 两 个 属性 的 正确 结合 能 提供 很 强 的 信息 
而 两 个 属性 单独 运用 旭 不 能 的 、 所 谓 瞳 码 锁 (combination-lock) 效果 。 大 多 数 决策 树 采 用 后 
修剪 ; 是 否 能 采用 前 修剪 策略 取得 同样 好 的 效果 尚 待 进一步 探讨 。 

在 后 修剪 过 程 中 考虑 两 种 完全 不 同 的 操作 : 子 树 置 换 (subtree replacement) 和 子 树 上 升 
(subtree raising )。 在 每 一 个 节点 上 ， 一 个 学 习 方 案 也 许 要 决定 是 采取 子 树 置换 还 是 子 树 上 升 ， 
或 者 让 子 树 和 原先 一 样 ， 不 进行 修剪 。 首 先 来 观察 子 树 置 换 ， 它 是 一 个 主要 的 修剪 操作 。 它 
的 想法 是 选择 - 些 子 树 并 用 单个 叶 节 点 来 代替 它们 。 例 如 ， 图 1-3a 中 包括 2 个 内 部 节点 和 4 个 
叶 节 点 的 整个 子 树 ， 被 单个 叶 节 点 bad 所 替换 。 如 果 原 先 的 决策 树 是 由 前 面 所 述 的 决策 树 算法 
建 并 的， 这 当然 会 引起 在 训练 集 上 的 正确 率 下 降 ， 因 为 算法 要 继续 创建 决策 树 直 至 所 有 的 叶 
节点 都 是 纯粹 的 (或 者 说 直至 所 有 的 属性 都 被 测试 过 )。 不 过 这 也 许 会 提高 在 独立 选 出 的 测试 
集 上 的 正确 率 。 

当 实施 子 树 置 换 后 ， 它 是 从 叶 节 点 向 树 根 方向 进行 处 理 的 。 在 图 1-3 的 例子 中 ， 整 个 子 树 
不 会 马上 被 置换 成 如 图 1-3a。 首 先 ， 要 考虑 将 健康 计划 子 树 上 的 3 个 子 节点 替换 成 单个 叶 节 点 。 
假设 做 出 要 进行 更 换 的 决定 ， 马 上 会 讨论 如 何 做 出 这 个 决定 。 然 后 ， 继 续 从 叶 节 点 开始 工作 ， 
考虑 将 现在 只 有 两 个 子 节点 的 每 周 工作 时 间 子 树 换 成 单个 叶 节 点 。 在 图 1-3 例 子 中 ， 这 个 幸 换 
实际 上 也 已 完成 ， 图 1-3a 中 的 整个 子 树 被 替换 成 了 标 为 bad 的 单个 叶 节 上 点。 最后， 考虑 用 单个 
叶 节 点 来 置换 第 1 年 工资 增长 子 树 的 两 个 子 节点 。 在 这 个 例子 中 这 个 决定 未 能 实现 ， 因 此 决策 
树 保 持 如 图 1-3a 所 示 。 后 面 将 要 讨论 这 些 决定 实际 上 是 如 何 做 出 的 。 

第 一 种 修剪 操作 子 树 上 升 ， 更 复杂 ， 是 否 有 必要 也 不 是 很 清楚 。 在 这 里 描述 它 ， 是 因为 
它 被 应 用 于 有 影响 力 的 C4.5 决 策 树 系统 。 子 树 上 升 在 图 1-3 例 子 中 没有 发 生 ， 所 以 用 图 6-1 所 示 
的 虚拟 例子 来 解释 。 这 里 ， 考 虑 对 图 6-1a 中 所 示 的 树 进行 修剪 ， 修 前 结果 显示 在 图 6-1b 中 。 整 
个 自 C 以 下 的 子 树 被 提升 上 来 置换 子 树 B。 注 意 虽说 这 里 的 B 和 C 的 子 节点 是 叶 节点 ， 但 它们 也 
可 以 是 完整 的 子 树 。 当 然 ， 如 果 要 进行 上 升 操 作 ， 有 必要 将 标 有 4 和 5 的 节点 处 的 样本 重新 划 
分 到 标 为 C 的 新 子 树 中 。 这 就 是 为 何 那个 节点 的 子 节点 被 标 为 : 二 、2 和 3' 一 一 表明 它们 并 不 
与 原来 的 子 节点 1、2 和 3 相同 ， 而 是 包含 了 原本 被 4 和 5 涵盖 的 样本 。 

子 树 上 升 可 能 是 一 个 耗 时 的 操作 。 在 实际 的 实现 中 ， 它 被 限制 在 只 能 提升 最 为 普及 的 分 
支 。 就 是 说 ， 由 于 从 B 至 C 的 分 支 较 之 从 B 至 节点 4 或 者 B 至 节点 5 的 分 支 有 更 多 的 训练 样本 ， 才 
考虑 做 图 6-1 中 的 上 升 。 否 则 ， 如 果 ( 举 个 例子 ) 节点 4 是 B 的 主要 子 节 点 ， 将 考 虚 上 升 节点 4 
去 代替 B， 并 重新 对 所 有 C 以 下 的 样本 以 及 节点 $ 的 样本 进行 分 类 以 加 入 到 新 的 节点 。 


6.1.4 估计 误差 率 


两 种 修剪 操作 就 讨论 到 此 。 现 在 必须 来 解决 怎样 决定 是 否 要 用 单个 叶 匠 点 来 赫 换 一 个 内 
部 节点 〈 子 树 置换 )， 或 者 是 否 要 用 位 于 一 个 内 部 节点 下 面 的 某 个 节点 来 替换 它 (TREH) 
的 问题 。 为 了 能 做 出 理性 的 决定 ， 必 须 用 一 个 独立 的 测试 集 在 某 个 节点 处 进行 期 望 误 差 率 估 


rn 
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计 。 既 要 在 内 部 节点 处 又 要 在 叶 节点 处 进行 误差 估计 。 如 果 有 了 这 样 的 估计 值 ， 只 要 简单 地 

比较 子 树 的 估计 误差 和 其 要 替换 成 的 子 树 的 估计 误差 ， 便 能 明确 地 决定 是 否 要 对 某 个 子 树 进 

行 置换 或 上 升 操作 。 在 对 预备 提升 的 子 树 进行 误差 估计 之 前 ， 当 前 节点 的 同胞 节点 所 含 的 样 
193| 本 ， 即 图 6-1 中 节点 4 和 节点 5 所 含 样本 必须 暂时 重新 分 类 到 被 提升 的 树 中 。 





a) b) 


图 6-1 子 树 上 升 例子 ， 节 点 C“ 上 升 ”并 包含 节点 B 


用 在 训练 集 上 的 误差 作为 误差 估计 是 无 效 的 ， 将 导致 不 会 有 任何 修剪 ， 因 为 树 是 特 为 训 
练 集 建立 的 。 一 种 取得 误差 估计 的 办 法 是 采用 标准 验证 技术 ， 保 留 部 分 原始 数据 作为 一 个 独 
立 的 测试 集 来 估计 每 个 节点 上 的 误差 。 这 称 为 减少 -误差 (reduced-error) 修剪 。 它 的 缺点 是 
决策 树 是 在 较 少 的 数据 上 建立 。 
男 一 个 方法 是 试图 以 训练 集 本 身 为 基础 来 估计 误差 。 这 正 是 C4.5 算 法 中 所 做 的 ， 我 们 在 
这 里 介绍 一 下 这 个 方法 。 这 是 一 种 基于 一 些 统计 推理 的 方法 ， 但 这 个 统计 基础 有 点 薄弱 并 且 
比较 特殊 。 然 而 ， 在 实际 运用 中 似乎 效果 良好 。 它 的 想法 是 考虑 到 达 每 个 节点 的 实例 集 ， 并 
想象 选择 多 数 类 来 代表 这 个 节点 。 这 便 能 提供 一 个 在 实例 总 数 N 中 所 占 的 “错误 ”数量 E。 现 
在 想象 在 节点 上 的 错误 的 真实 可 能 性 是 g， 并 且 N 个 样本 是 由 参数 为 q 的 伯 努 利 程式 所 产生 的 ， 
E 成 为 了 错误 数量 。 
这 个 情形 如 同 在 5.2 节 中 讨论 旁 置 法 时 所 考虑 的 情形 ， 已 知 某 个 观察 到 的 成 功率 ， 计 算 真 
实 成 功率 p 的 置信 区 间 。 有 两 点 不 同 。 一 个 是 微不足道 的 :这 里 讨论 的 是 误差 率 g 而 非 成 功率 
pP: 它们 之 间 存 在 简单 的 关系 p + 9 = 1。 第 二 个 比较 重要 : 这 里 数据 已 和 N 来 自 训 练 集 ， 而 在 
5.2 节 中 考虑 的 是 使 用 独立 的 测试 集 。 由 于 这 个 不 同 ， 需 要 设 定 置 信和 度 上 限 来 为 误差 率 做 一 个 
较为 悲观 的 估计 ， 而 不 是 给 出 估计 值 置信 区 间 。 
这 里 用 到 的 数学 知识 是 和 前 面 一 样 的 。 给 定 某 个 特定 的 置信 和 度 c (C4.5 所 使 用 的 默认 值 
c =25%)， 找 出 它 的 置信 边界 z， 使 得 





f-4 m 
这 里 N 是 实例 的 数量 ， = E / N 是 观察 到 的 误差 率 ，4 是 真实 误差 率 。 和 前 面 一 样 ， 这 将 得 
到 gq 的 一 个 置信 和 度 上 限 。 现在 就 用 这 个 置信 和 度 上 限 为 在 节点 上 的 误差 率 e 做 一 个 (悲观 的 ) 
估计 : 


| 
| 
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注意 在 分 子 的 平方 根 前 面 用 + 号 来 获得 置信 度 上 限 。 这 里 ，z 是 对 应 于 置信 度 c 的 标准 差 , 当 | 
c =25% It, z =0.69. | 
要 知道 在 实际 中 怎样 计算 ， 再 来 看 一 下 图 1-3 的 劳资 协商 决策 树 ， 图 6-2 对 其 中 特别 的 部 分 | 
重新 展示 添加 了 到 达 叶 节点 的 训练 实例 的 数量 。 利 用 前 面 的 公式 ， 置 信 度 设 为 25% ， 那 么 | 
z=0.69。 考 虑 底层 左边 的 叶 节 点 ， 巨 = 2, N = 6, 因此 / = 0.33。 将 这 些 数据 代入 公式 ， 误 差 置信 | 
度 上 限 计算 出 为 。 = 0.47。 这 意味 着 将 要 用 47% 这 个 翡 观 的 误差 估计 来 替代 在 这 个 节点 训练 集 | 
上 得 到 的 33% 的 误差 率 。 这 确实 是 悲观 的 估计 ， 对 于 一 个 二 类 问题 ， 误 差 率 若 高 于 50% 便 是 | 
很 大 的 失误 。 与 这 个 节点 的 相 邻 叶 节点 E = 1, N= 2, 由 于 计算 出 误差 置信 度 上 限 为 c= 0.72, 情 | 
况 就 显得 更 糟糕 了 。 第 三 个 叶 节点 e 值 和 第 一 个 是 相同 的 。 下 一 步 是 将 这 三 个 叶 节点 的 误差 估 | 
计 根据 它们 各 自 所 覆盖 的 实例 数量 的 比率 6:2:6， 进 行 组 合 ， 得 到 组 合 误差 估计 值 0.51。 现 在 来 | 
考虑 它们 的 父 节点 健康 计划 。 这 个 节点 覆盖 了 9 个 类 值 为 bad 的 实例 和 5 个 类 值 为 good 的 实例 ，| 
因此 在 训练 集 上 的 误差 率 是 f= 5/14。 根 据 这 些 数据 ， 按 照 前 面 的 公式 计算 得 到 一 个 悲观 的 误 | 
差 估计 e = 0.46。 由 于 这 个 值 小 于 三 个 子 节点 的 组 合 误差 估计 ， 因 此 子 节点 便 被 修剪 掉 了 。 | 
下 一 步 处 理 每 周 工作 时 间 节 点 , 它 现在 含有 两 个 都 为 叶子 的 子 节点 。 第 一 个 子 节点 E = 1、| 

N= 2， 它 的 误差 估计 为 e = 0.72， 第 二 个 正 是 先前 讨论 的 e = 0.46。 把 它们 按照 比率 2:14 组 合 起 | 
来 ， 得 到 一 个 比 每 周 工作 时 间 节 点 的 误差 估计 高 的 值 ， 因 此 子 树 也 被 修剪 掉 ， 用 一 个 叶 节点 | 
来 代替 。 | 
从 这 些 样本 中 获得 的 误差 估计 数字 需要 有 所 保留 ， 因 为 这 种 估计 是 一 种 启发 式 估计 并 且 | 
是 建立 在 儿 个 虚弱 的 假设 上 : 置信 度 上 限 的 使 用 、 正 态 分 布 假设 以 及 采用 在 训练 集 上 取得 的 | 
统计 数据 这 个 事实 。 但 是 不 管 怎样 ， 误 差 公式 在 量化 上 是 正确 的 ， 而 且 这 个 方法 似乎 在 实践 | 
运用 中 效果 良好 。 如 有 必要 ， 所 应 用 的 置信 度 水 平 25%， 可 以 修正 一 下 以 取得 更 满意 的 结果 。 | 
i 


第 1 年 工资 增长 





图 6-2 劳资 协商 决策 树 的 修剪 
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6.1.5 决策 树 归纳 的 复杂 度 
学 习 了 如 何 完成 修 前 操作， 了解 了 决策 树 归纳 法 的 所 有 中 心 部 分 。 现 在 来 思考 决策 
BHANA. 使 用 标准 符号 : O(n), Ka Min ER HES KA, Om Ein 


一 次 方 增 长 的 量 ， 诸 如 此 类 。 
假设 训练 集 拥有 n 个 实例 以 及 m 个 属性 。 我 们 需要 对 树 的 尺寸 做 一 个 假设 ,假设 树 的 深度 


- 是 由 log nn 决定 的 ， 即 O(log n)。 这 是 一 个 含有 nn 个 叶 节 点 的 树 的 标准 增长 率 ， 假 设 树 保持 “ 浓 


密 ” 生 长 ， 没 有 退化 成 非常 深 且 长 丝 状 的 分 支 。 注 意 这 里 假设 大 多 数 的 实例 都 是 不 同 的 ， 也 
就 相当 于 m 个 属性 能 提供 足够 多 的 测试 ， 使 实例 各 不 相同 。 例 如 ， 如 果 只 存在 少数 几 个 二 类 属 
性 ， 那 么 它们 只 允许 有 这 么 多 的 不 同 实 例 ， 树 的 生长 不 可 能 超出 茶 个 限度 ， 表 现 这 种 “在 限 


. 定 范围 内 ”的 分 析 是 毫 无 意义 的 。 


建树 的 计算 成 本 首先 是 
O (mn log n) 
考虑 一 个 属性 在 树 的 所 有 节点 上 所 要 做 的 工作 量 。 当 然 不 必 在 每 一 个 节点 上 考虑 所 有 的 实例 。 


但 在 树 的 每 一 层 、 必 须 考虑 含有 xn 个 实例 的 整个 实例 集 。 由 于 树 有 log n 个 不 同 的 层 ， 处 理 一 个 


属性 所 需要 的 工作 量 便 是 O (n log 站 。 在 每 个 节点 上 所 有 属性 都 要 被 考虑 ， 因 此 总 的 工作 量 是 
O (mn log n). 

这 个 推理 有 几 个 前 提 假 设 。 如 果 一 些 属性 是 数值 型 的 ， 它 们 必须 是 经 排序 的 ， 一 旦 最 初 
的 排序 完成 后 ， 如 运用 了 适当 的 算法 (6.1 布 )， 就 没有 必要 在 树 的 每 一 层 进行 再 次 排序 。 最 
初 的 排序 操作 对 于 每 个 属性 工作 量 为 O (* log n)， 共 有 避 个 属性 : 因此 前 面 的 复杂 度数 值 没 有 
变化 。 如 果 属 性 是 名 词性 的 ， 没 有 必要 在 每 个 节点 上 考虑 所 有 属性 ， 因 为 在 树 的 上 部 已 用 过 


的 属性 就 不 能 再 用 了 。 然 而 ， 如 果 是 数值 属性 ， 属 性 可 以 再 次 应 用 ， 因 此 必须 在 树 的 每 一 层 
| 考虑 所 有 的 属性 。 


下 一 步 考 虚 子 树 置 换 修 藤 操作。 首先 对 于 每 个 树 节点 都 要 做 一 个 误差 估计 。 假 设 使 用 了 适 
当 的 累计 操作 ， 它 便 是 与 树 所 含 的 节点 数 存在 线性 关系 。 对 每 个 节点 都 要 做 置换 考虑 。 树 最 多 


; 含有 nn 个 叶 节 点 ， 每 个 节点 含 一 个 实例 。 如 果 是 二 分 树 ， 每 个 属性 都 是 数值 型 的 或 是 二 值 属 性 ， 


那么 便 有 2n - 1 个 节点 ; 多 路 分 支 只 是 减少 内 部 节点 数 。 因 此 子 树 置换 操作 复杂 度 是 O (n). 
最 后 ， 子 树 上 升 和 子 树 置换 的 复杂 度 基本 - 致 。 ee Ee 
新 分 类 而 产生 了 一 个 额外 成 本 。 在 整个 过 程 中 ， 对 于 每 个 实例 来 说 ， 也 许 需 要 在 它 的 叶 节 
和 根 节 点 之 间 的 每 个 节点 处 进行 重新 分 类 , BNO (log n) 次 。 和 重新 人 类 首次 数 尖 Oniog 人 
并 且 重 新 分 类 并 非 是 单个 操作 : 在 靠近 根 节 点 进行 时 ， 要 O (log n) 次 操作 ， 在 平均 高 度 处 进 
行 时 则 需要 这 个 数 的 .- 半 。 这 样 总 的 子 树 上 升 的 复杂 度 是 : O (n dogn)’. 
这 样 ， 将 所 有 的 操作 考虑 进 米 ， 完 整 的 决策 树 归纳 法 复杂 度 是 : O (mn log n) +O (ndog n) ”)。 


6.1.6 从 决策 树 到 规则 


正如 3.3 节 中 提 到 的 ， 通 过 为 每 个 叶 节点 建立 一 个 规则 ， 把 从 根 节点 到 叶 节 点 的 路 径 中 遇 
到 的 所 有 测试 条 件 联合 起 来 ， 使 从 决策 树 上 直接 读 出 一 组 规则 集成 为 可 能 。 这 样 创立 的 规则 
是 清楚 明确 的 ， 以 什么 顺序 执行 是 无 关 紧 要 的 。 但 是 这 样 的 规则 产生 某 些 不 必要 的 复杂 。 

上 面 讲 到 的 误差 率 估计 提供 的 正 是 修剪 规则 所 需要 的 机 制 。 对 某 一 个 有 具体 的 规则 来 说 ， 
考虑 将 它 的 每 个 条 件 暂 时 去 除 ， 找 出 规则 现在 所 涵盖 的 训练 实例 ， 用 这 些 实例 计算 出 新 规则 
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的 误差 率 的 翡 观 估计 ， 并 将 此 与 原来 规则 的 误差 率 的 翡 观 估计 相 比较 。 如 果 新 规则 的 结果 比 
较 好 ， 则 删除 这 个 条 件 ， 然 后 继续 找 其 他 条 件 进 行 删除 。 当 删除 任何 条 件 都 不 再 能 改善 规则 
时 ， 则 保留 规则 。 一 旦 所 有 的 规则 都 用 这 种 方法 修剪 过 了 ， 有 必要 看 一 下 是 否 有 重复 的 规则 ， 
应 把 它们 从 规则 集 里 去 除 。 

这 是 -个 用 于 探测 规则 中 重复 条 件 的 贪心 方法 ， 不 能 保证 最 好 的 条 件 组 合 是 否 会 被 删除 。 
-种 改进 是 考虑 所 有 的 条 件 子 集 ， 但 是 这 样 的 代价 太 高 了 。 另 外 一 种 解决 办 法 是 采用 优化 技 
术 ， 诸 如 模拟 退火 或 者 遗传 算法 来 选择 这 个 规则 的 最 佳 版 本 。 但 不 管 怎么 说 ， 这 个 简单 的 人 
心 方法 似乎 可 以 产生 相当 好 的 规则 集 。 

即使 采用 贪心 方法 ， 计 算 成 本 也 是 一 个 问题 。 对 于 每 个 条 件 ， 它 们 都 是 被 删除 对 象 的 候 
选 者 ， 规 则 的 效果 必须 在 所 有 的 训练 实例 上 进行 重新 评估 。 这 意味 着 从 树 中 形成 规则 会 是 很 
慢 的 过 程 。 下 一 节 要 介绍 一 种 较 快 的 方法 ， 它 是 直接 产生 分 类 规则 而 不 用 先 形成 决策 树 。 


6.1.7 C4.5: 选择 和 选项 


我 们 以 讨论 标志 性 的 决策 树 方案 C4.5 以 及 其 后 继 者 C5.0 在 实践 中 的 一 些 应 用 来 结束 决策 
树 的 学 习 。 这 些 是 由 J. Ross Quinlan 从 20 世 纪 70 年 代 末 期 开始 ， 用 了 20 年 的 时 间 来 设计 的 。20 
世纪 90 年 代 初期 ， 关 于 完整 C4.5 描 述 是 一 本 优秀 的 可 读 性 很 强 的 书 (Quinlan，1993 年 )， 附 
有 全 部 源 代码 。 更 新 的 版 本 C5.0 已 经 商业 化 。 它 的 决策 树 归 纳 基本 和 C4.5 相 同 ， 测 试 结果 略 
有 不 同 ， 但 改进 不 明显 。 虽 然 在 公开 文献 上 未 见报 道 ， 但 它 的 规则 产生 迅速 并 显然 运用 了 不 
同 的 技术 。 

C4.5 本 质 上 就 如 上 节 中 描述 的 。 缺 省 置信 值 设 定 在 25% 并 在 绝 大 多 数 场合 运行 良好 ; 如 果 
在 测试 集 上 , 决策 树 的 实际 误差 率 比 估 计 的 高 出 许多 的 话 , 也 许 这 个 置信 度 可 以 设 得 更 低 一 些 ， 
从 而 导致 更 “猛烈 ”的 修剪 。 另 外 还 有 一 个 重要 参数 ， 它 的 作用 是 消除 那些 几乎 在 所 有 训练 实 
例 上 结果 都 相同 的 测试 。 这 类 测试 经 常 是 没有 什么 用 的 。 因 此 ， 测 试 不 会 加 入 到 决策 树 中 ， 除 
非 它们 至 少 能 产生 两 个 结果 ， 即 覆盖 实例 数量 达 某 个 最 小 值 。 这 个 最 小 值 的 缺 省 值 是 2， 但 这 
个 数 是 可 以 调控 的 ， 对 于 含 许多 干扰 数据 的 情况 也 许 应 提高 这 个 值 。 


6.1.8 讨论 


自 上 而 下 的 决策 树 归 纳 法 或 许 是 数据 控 据 中 应 用 最 广 的 机 器 学 习 研 究 方法 。 研 究 者 们 对 
学 习 过 程 中 几乎 所 有 可 能 的 方面 都 进行 了 各 种 探究 ， 例 如 ， 不同 的 属性 选择 标准 或 修改 了 的 
修剪 方法 。 可 是 很 少 能 在 不 同 数据 集 上 使 正确 率 得 到 真正 的 改善 。 有 时 使 用 不 同 的 修剪 方法 ， 
归纳 树 尺寸 是 明显 减 小 了 ， 但 是 将 C4.5 的 修剪 参数 设 小 一 点 经 常 也 能 获得 同样 的 效果 。 

在 关于 决策 树 的 讨论 中 ， 我 们 假设 在 每 一 个 节点 上 ， 仅 仅 用 一 个 属性 来 将 数据 分 裂 成 子 
集 。 然 而 ， 也 可 以 允许 测试 条 件 一 次 牵涉 到 几 个 属性 。 例 如 ， 对 于 数值 属性 ， 每 个 测试 可 以 
是 属性 值 的 线性 组 合 。 那 么 最 终 形成 的 树 是 如 4.6 节 中 讨论 的 分 级 结构 线性 模型 组 成 ， 分 裂 也 
不 再 局 限于 轴 平 行 。 相 对 于 常用 的 单 变量 (univariate ) 树 ， 测 试 牵涉 到 一 个 以 上 属性 的 树 称 
为 多 元 (multivariate) 决策 树 。 多 元 测试 是 由 用 于 决策 树 学 习 的 分 类 和 回归 树 (CART) 系统 
引入 的 Breiman 等 ，1984 年 )。 它 们 通常 更 精确 ， 比 单 变量 树 更 小 ， 但 生成 树 的 时 间 要 长 一 
些 并 且 较 难 解释 。 在 7.3 节 中 将 简要 地 介绍 一 种 使 用 主 分 量 分 析 (principal component analysis) 
法 来 产生 它们 的 方法 。 
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6.2 分 类 规则 


为 生成 规则 所 用 的 基本 覆盖 算法 在 4.4 节 中 称 为 是 一 种 割 治 (separate-and-conquer) HER, 
它 先 确定 - -条 规则 能 覆盖 属于 某 一 个 类 的 实例 (并 排除 不 属于 此 类 的 实例 )， 将 这 些 实例 分 离 
出 来 ， 然 后 继续 对 所 剩 的 实例 进行 处 理 。 这 种 算法 被 当 作 是 许多 生成 规则 系统 的 基础 。 我 们 
还 描述 了 一 -个 简单 的 基于 纠正 (correctness-based) 的 方法 用 于 选择 在 每 个 阶段 对 规则 增加 何 
种 测试 。 但 是 ， 还 有 许多 其 他 可 能 方法 ， 具 体 方案 的 选择 对 规则 生成 具有 重大 影响 。 在 这 一 
节 中 要 考察 为 了 选择 测试 所 采用 的 不 同方 案 。 还 要 讨论 怎样 通过 处 理 残缺 值 和 数值 属性 将 基 
本 的 规则 生成 算法 应 用 到 实践 中 。 

所 有 这 些 规则 生成 方案 的 真正 问题 在 于 它们 有 对 训练 数据 过 度 拟 合 的 倾向 ， 不 能 很 好 地 
推广 到 独立 的 测试 数据 集 上 ， 特 别 是 在 干扰 数据 上 。 为 了 能 生成 适合 干扰 数据 的 好 规则 ， 有 
必要 使 用 某 些 方 法 来 衡量 单个 规则 的 真正 价值 。 评 估 规 则 价值 的 标准 方法 就 是 评估 规则 在 某 
个 独立 实例 集 上 的 误差 率 ， 这 个 独立 实例 集 是 从 训练 集中 保留 出 来 的 一 部 分 ， 我 们 将 在 后 面 
解释 这 个 问题 。 然 后 讨论 两 种 具有 产业 价值 的 规则 学 习 器 : 一 种 是 将 简单 的 割 治 技术 和 全 局 优 
化 (global optimization) 步 又 结合 起 来 的 方法 ， 另 一 种 是 重复 建立 局 部 决策 树 (partial 
decision tree) 并 从 中 提炼 出 规则 。 最 后 讨论 怎样 产生 含有 例外 的 规则 ， 以 及 例外 的 例外 。 


6.2.1 选择 测试 的 标准 

在 4.4 节 中 介绍 基本 规则 学 习 器 时 曾 指 出 必须 找 出 -- 种 方法 ， 从 许多 可 能 的 测试 中 选 定 某 
个 测试 加 到 规则 中 ， 以 避免 规则 覆盖 任何 否定 实例 。 为 达 此 目的 ， 使 用 能 使 mt 比率 达到 最 大 
值 的 测试 ， 这 里 1 是 指 新 规则 所 覆盖 的 样本 总 数 ，p 是 其 中 肯定 的 数 自 ， 即 指 属于 问题 中 的 类 。 
试图 使 规则 的 “正确 性 ”最 大 化 ， 所 覆盖 的 肯定 样本 比率 越 高 ， 规 则 就 越 是 正确 。 男 一 种 方 
法 是 计算 信息 增益 (information gain) 


p P 
log ~— log — 
al a ef| 


和 前 面 一 样 ，P 和 ! 分 别 是 新 规则 所 覆盖 的 肯定 实例 数量 和 所 有 实例 数量 ，P 和 7 分 别 是 添加 新 
测试 之 前 ， 规 则 所 覆盖 的 对 应 的 实例 数量 。 原 理 是 它 代 表 了 关于 当前 肯定 样本 的 总 信息 增益 ， 
是 由 满足 新 测试 的 样本 数量 乘 以 信息 增益 所 给 出 。 

选择 加 入 到 规则 中 的 测试 的 基本 标准 是 找 出 尽 可 能 多 地 覆盖 肯定 样本 、 并 尽 可 能 少 地 覆 
盖 否 定 样本 的 测试 。 原 始 的 基于 正确 性 的 方法 ， 只 是 看 肯定 样本 在 规则 所 有 覆盖 的 所 有 样本 中 
所 占 的 百分比 ， 而 不 管 规则 究竟 覆盖 多 少数 量 的 肯定 样本 ， 当 它 没有 履 盖 任 何 否定 样本 时 便 
会 得 到 一 个 最 大 值 。 因 此 使 规则 精确 的 测试 便 优 先 于 使 规则 不 精确 的 测试 ， 不 管 前 者 所 覆盖 
的 肯定 样本 数 有 多 么 小 ， 也 不 管 后 者 所 和 覆盖 的 肯定 样本 数 有 多 么 大 。 例 如 ， 如 果 有 一 个 候选 
的 测试 覆盖 1 个 样本 ， 这 个 样本 是 肯定 样本 ， 那 么 这 种 标准 将 使 这 个 测试 优先 于 另 一 个 能 覆盖 
1 000 个 样本 其 中 含 1 个 否定 样本 的 测试 。 

男 一 方面 ， 基 于 信息 的 方法 更 注重 于 规则 所 覆盖 的 大 量 肯定 样本 而 不 管 所 建 的 规则 是 否 
精确 。 当 然 ， 两 种 算法 都 是 持续 增加 测试 直到 最 终 的 规则 是 精确 的 为 止 ， 这 意味 着 使 用 基于 
正确 性 的 方法 将 会 较 早 结束 ， 而 使 用 基于 信息 的 方法 将 会 增加 更 多 的 测试 项 。 因 此 基于 正确 
性 的 方法 可 能 会 发 现 一 些 特殊 情形 ， 完 全 排除 它们 ， 避 免 了 后 面 规则 的 大 量 描绘 (由 于 特殊 
情形 已 经 处 理 了 ， 后 面 更 具 推 广 性 的 规则 也 许 更 为 简单 )。 基 于 信息 的 方法 先 要 试图 产生 高 覆 
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盖 的 规则 而 将 特殊 情形 放 在 后 面 处理 。 使 用 两 种 策略 产生 精确 的 规则 集 ， 哪 种 更 有 优势 并 不 
明显 。 而 且 ， 事 实 上 正如 下 面 将 要 讲 到 的 ， 规 则 集 可 能 要 被 修剪 并 且 要 容许 不 精确 的 规则 存 
在 ， 因 此 整个 情形 变 得 更 为 复杂 。 


6.2.2 残缺 值 ， 数 值 属性 


如 同 分 治 决 策 树 算法 一 样 ， 实 践 中 令 人 厌烦 的 对 于 残缺 值 和 数值 属性 的 考虑 是 无 法 回避 
的 问题 。 事 实 上 ， 也 没有 什么 可 以 多 说 的 。 现 在 我 们 已 知道 在 决策 树 归纳 中 是 如 何 解 决 这 些 
问题 的 、 那 么 适用 于 规则 归纳 的 解决 方案 便 很 容易 得 到 了 。 

当 使 用 覆盖 算法 产生 规则 时 ， 处 理 残缺 值 的 最 好 方法 就 是 把 它们 当 作 不 符合 任何 测试 。 
这 在 产生 决策 列 时 特别 适当 ， 因 为 它 会 促进 学 习 算法 利用 肯定 会 成 功 的 测试 来 将 肯定 实例 分 
离 出 来 。 这 样 的 效果 是 要 么 使 用 不 牵涉 到 残缺 值 属 性 的 规则 来 对 残缺 值 实例 进行 处 理 ， 要 么 。 Bol 
在 绝 人 多数 实例 都 已 经 处 理 完成 后 再 来 处 理 这 些 实例 ， 这 时 测试 可 能 涵盖 的 是 其 他 属性 。 禾 
盖 算 法 应 用 于 决策 列 相 对 于 决策 树 来 说 ， 在 这 方面 有 一 个 明显 的 优势 : 有 麻烦 的 样本 可 以 稍 
后 处 理 ， 这 样 由 十 绝 大 多 数 样本 都 已 经 分 类 完成 并 从 实例 集中 去 除 ， 那 时 它们 就 显得 不 那么 
麻烦 了 。 

数值 属性 可 以 采用 它们 在 决策 树 中 的 相同 办 法 处 理 。 对 于 每 一 个 数值 属性 ， 根 据 属性 值 
将 实例 进行 排序 ， 对 于 每 一 个 可 能 的 净值 ， 考 虑 一 个 二 分 的 小 于 /大 于 测试 ， 评 估 则 完全 采用 
对 一 值 属性 进行 评估 的 方法 。 


6.2.3 生成 好 的 规则 


假设 你 并 非 要 生成 对 所 有 训练 集 实例 都 能 正确 分 类 的 完美 规则 ， 而 是 要 生成 “敏感 ” 规 
则 ， 能 避免 对 训练 集 实例 过 度 拟 合 从 而 对 于 新 的 测试 实例 能 有 较 好 的 性 能 表现 。 怎 样 决定 哪 
些 规则 是 有 价值 的 呢 ?” 为 了 排除 个 别 讨厌 的 错误 实例 ， 要 持续 往 规则 中 添加 测试 项 ， 但 同时 
也 会 排除 越 来 越 多 的 正确 实例 。 怎 样 知道 何 时 开始 起 反作用 了 呢 ? 

下 面 来 看 关于 表 1-1 所 列 隐形 眼镜 问题 的 几 个 可 能 的 规则 ， 有 些 是 好 的 ， 有 些 是 坏 的 样本 。 
首先 来 看 规则 

If astigmatism = yes and tear production rate = normal 

then recommendation = hard 


这 条 规则 覆盖 6 种 情形 ， 其 中 4 种 能 得 到 的 是 正确 结论 ; 因此 它 的 成 功 因数 就 是 4/46。 假 设 又 添 
加 了 一 个 测试 项 使 之 称 为 “完美 ”规则 : 


If astigmatism = yes and tear production rate = normal 
and age = young then recammendation = hard 


这 使 正确 率 提高 为 22。 哪 条 规则 更 好 呢 ? 第 二 条 规则 对 训练 集 数据 具有 较 高 的 正确 率 ， 但 是 
只 能 涵盖 2 种 情形 ， 而 第 一 条 规则 却 能 涵盖 6 种 情形 。 第 二 种 规则 或 许 是 对 训练 数据 过 度 拟 合 
了 。 在 规则 学 习 实 践 中 ， 需 要 有 一 种 基本 方法 能 用 于 选择 较 合适 的 规则 版 本 ， 即 选 出 能 在 未 
来 的 测试 数据 上 获得 最 高 正确 率 的 规则 。 
假设 将 训练 数据 分 裂 成 两 个 部 分 ， 称 为 成 长 集 (growing set) 和 修剪 集 (pruning set). 
成 长 集 是 用 于 生成 规则 的 ， 这 个 规则 生成 是 运用 基本 的 覆盖 算法 。 然 后 从 规则 中 去 除 某 个 测 
试 项 ， 并 使 用 修剪 集 来 对 这 个 经 修剪 的 规则 进行 结果 评估 ， 看 看 是 否 比 原先 的 规则 更 好 。 重 
复 这 样 的 修剪 过 程 直 至 去 除 任 何 测试 项 都 不 再 能 使 规则 有 任何 改进 。 对 每 个 类 都 重复 整个 过 ” [20 





136 $B MEFILASRK 


程 ， 为 每 个 类 获得 一 条 最 好 的 规则 ， 而 总 体 最 好 规则 是 通过 使 用 修剪 集 对 这 些 规则 进行 评估 
而 获得 的 。 将 这 条 (最 好 ) 规则 添加 到 规则 集中 ， 将 它 所 覆盖 的 实例 从 训练 数据 中 去 除 ， 成 
长 集 和 修剪 集中 都 要 去 除 ， 并 重复 整个 过 程 。 

为 何不 在 建立 规则 时 进行 修剪 而 是 在 建 完 之 后 才 丢 弈 其 中 的 某 部 分 呢 ? 即 为 何不 采用 先 
修剪 而 采用 后 修剪 呢 ? 就 像 决策 树 修剪 时 那样 ， 最 好 是 先生 成 一 个 最 大 的 树 ， 然 后 再 往 回 修 
剪 ， 对 于 规则 也 是 同样 的 ， 最 好 是 先 形成 最 完美 的 规则 然后 再 对 它 进行 修剪 。 谁 知道 呢 ? Be 
后 一 个 测试 项 的 添加 也 许 会 形成 一 条 相当 好 的 规则 ， 这 也 许 是 在 采用 大 胆 的 先 修剪 策略 时 绝 
不 会 注意 到 。 

成 长 集 和 修剪 集 必 须要 分 隔 开 是 很 关键 的 ， 因 为 使 用 形成 规则 的 数据 来 评估 一 条 规则 是 
会 产生 误导 的 : 会 由 于 过 度 拟 合 的 规则 获得 优先 而 导致 严重 错误 。 通 常 203 的 训练 数据 用 于 成 
长 而 1/3 的 训练 数据 用 于 修 章 。 缺 点 是 算法 只 在 成 长 集 数 据 上 进行 学 习 ， 若 某 些 关键 实例 被 
分 隔 在 修剪 集中 ， 算 法 可 能 会 遗失 一 些 重 要 规则 。 另 外 ， 错 误 的 规则 有 可 能 获得 优先 ， 因 为 
修剪 集 只 含 13 的 训练 数据 也 许 并 不 能 完全 具有 代表 性 。 这 些 影 响 可 以 通过 在 算法 所 进行 的 每 
次 循环 中 ， 即 在 每 条 规则 最 终 选择 之 后 ， 将 训练 数据 重新 分 裂 为 成 长 集 和 修剪 集 来 改进 。 

使 用 隔离 的 修剪 集 进 行 修剪 ， 它 既 适 用 于 决策 树 也 适用 于 规则 集 ， 称 为 减少 -误差 修剪 法 
(reduced-error pruning). 前面 描述 的 在 规则 每 次 一 生成 就 立即 修 藤 规则 称 为 递增 (incremental) 
减少 -误差 修 章 。 另 一 种 可 能 方法 是 先 建立 未 修剪 的 完整 规则 集 ， 然 后 再 丢弃 个 体 测 试 来 进行 
修剪 。 然 而 这 种 方法 慢 多 了 。 

当然 ， 有 多 种 不 同方 法 能 以 修剪 集 为 基础 ， 评 估 一 条 规则 的 价值 所 在 。 一 种 简单 的 方法 
是 在 闭合 形式 的 假设 条 件 下 ， 如 果 某 个 规则 是 某 个 理论 的 唯一 规则 ， 考 虑 应 用 这 个 规则 从 其 
他 类 别 中 识别 出 预测 类 究竟 完成 得 有 多 好 。 如 果 规 则 所 覆盖 的 :个 实例 中 能 得 到 p 个 实例 是 正 
确 的 ， 并 且 在 所 有 的 7T 个 实例 中 含有 P 个 实例 是 属于 这 个 类 的 ， 那 么 就 说 它 能 得 到 p 个 肯定 实例 
是 正确 的 。 规 则 所 没有 覆盖 的 否定 实例 有 N -n 个 ， 这 里 n=t-p 是 指 规则 所 覆盖 的 否定 实例 数 
量 ，N=7- P 是 否定 实例 的 总 数量 。 因 此 ， 规 则 有 一 个 总 体 成 功率 

[p+ (N~n)]/T 
在 测试 集 上 评估 所 得 到 的 这 个 数量 用 来 评估 采用 减少 -误差 修剪 所 得 到 的 规则 的 成 功 性 。 

由 于 这 种 方法 视 末 被 规则 覆盖 的 否定 样本 的 重要 性 ， 等 同 于 规则 所 覆盖 的 肯定 样本 的 重 
要 性 ， 是 不 切实 际 的 ， 实 际 情况 是 被 评估 的 这 条 规则 最 终 将 伴随 着 其 他 规则 共同 工作 ， 因 此 
对 这 种 方法 批评 意见 较 多 。 例 如 ， 一 条 规则 所 覆盖 的 3 000 个 实例 中 有 p = 2 000 个 实例 得 到 正 
确 预 测 ( 即 有 n=1 000 个 是 错误 的 )， 相 比 另 一 条 规则 覆盖 1 001 个 实例 ， 其 中 有 p = 1 000 个 实 
例 得 到 正确 预测 ( 即 有 n=1 个 是 错误 的 )， 评 估 结 果 是 前 者 比 后 者 更 成 功 ， 因 为 在 第 -种 情形 
中 [p+ (N 一 n)]/T 等 于 [1 000+N] / T, 而 在 第 二 种 情形 中 却 只 有 [999+N] / T。 这 是 违背 直觉 的 : 
第 一 条 规则 预测 能 力 明显 比 第 二 条 差 ， 因 其 误差 率 是 33% 对 0.1%。 

利用 成 功率 p/t 来 衡量 ， 就 像 履 盖 算 法 的 原始 表达 式 (图 4-8) 那样 ， 也 不 是 完美 的 解决 方 
法 ， 因 为 它 会 选择 能 得 到 1 个 正确 预测 (p=1) 而 总 覆盖 数 为 1 (因此 n=0) 的 规则 优先 于 更 有 用 
的 、 能 从 1 001 个 实例 中 得 到 1 000 个 正确 预测 的 规则 。 另 一 种 曾 被 应 用 的 方法 是 计算 (p - n)/t, 
但 它 也 存在 同样 的 问题 ， 因 为 (p— nit = 2p/t - 1， 所 以 在 比较 两 条 规则 时 ， 结 论 等 同 于 两 个 
成 功率 的 比较 。 看 来 似乎 很 难 找到 一 种 简单 的 方法 来 衡量 规则 的 价值 ， 这 个 价值 要 在 所 有 情 
形 下 都 能 和 直觉 判定 相符 。 
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无 论 使 用 何 种 衡量 规则 价值 的 方法 ， 递 增 减少 -误差 修剪 算法 都 是 相同 的 。 图 6-3 给 出 了 一 
种 以 这 种 思想 方法 为 基础 的 可 能 的 规则 学 习 算法 。 它 产生 一 组 决策 列 ， 依 次 为 每 个 类 生成 规 
则 ， 在 每 个 阶段 根据 它 在 修剪 数据 上 得 出 的 价值 ， 选 择 出 最 好 的 规则 。 应 用 生成 规则 的 基本 
覆盖 算法 (图 4-8) 来 为 每 个 类 生成 好 的 规则 ， 并 利用 先前 讨论 的 p/t 正 确 率 量度 来 选择 加 入 规 
则 的 条 件 。 





将 E 初 始 化 为 实例 集 
KE 按 2:1 分 型 为 成 长 集 和 修剪 集 
对 在 成 长 集 和 修剪 集中 都 含有 实例 的 每 个 类 C 
使 用 基本 蔬 盖 算法 ， 为 类 别 C 生 成 最 好 的 规则 
在 修剪 集 上 计算 规则 的 价值 w(R)， 以 及 将 最 后 一 个 条 件 去 除 后 的 价值 w(R- ) 
当 w(R - ) >w(R) 时 、 从 规则 中 去 除 最 后 一 个 条 件 并 重复 上 -步骤 
从 所 生成 的 规则 中 选择 w(R) 值 最 大 的 那个 规则 


输出 规则 
ME 中 去 除 被 这 个 规则 所 荐 瘟 的 实例 
继续 循环 








图 6-3 递增 减少 -误差 修剪 法 形成 规则 的 算法 


这 个 方法 用 于 产生 规则 归纳 方案 ， 这 些 方案 能 处 理 大 量 数据 并 且 运 行 速度 很 快 。 它 还 可 

以 提速 ， 这 是 通过 为 排序 的 类 生成 规则 ， 来 替换 原先 在 每 个 阶段 为 每 个 类 生成 一 条 规则 并 选 
择 最 好 的 。 一 种 较 合 适 的 排序 是 按照 各 个 类 在 训练 集中 出 现 次 数 的 升序 排列 ， 因 此 最 少 出 现 
的 类 第 一 个 处 理 ， 最 常见 的 类 最 后 处 理 。 可 获 明 显 提速 的 另 一 方面 是 当 规 则 产生 某 个 足够 小 
的 正确 率 时 ， 即 停止 整个 程序 ， 这 样 便 可 以 避免 在 最 后 为 生成 许多 覆盖 量 很 小 的 规则 而 花费 
时 间 。 但 是 ， 非 常 简单 的 停止 条 件 〈 比 如 ， 当 一 条 规则 的 正确 率 低 于 它 所 预测 的 类 的 缺 省 正 
确 率 时 即 停止 ) 不 能 获得 最 好 的 性 能 表现 ， 而 目前 所 发 现 的 似乎 能 提高 性 能 表现 的 条 件 是 相 
当 复杂 的 ， 它 们 是 以 最 短 描述 长 度 原理 为 基础 的 。 


6.24 使 用 全 局 优化 


通常 、 如 此 使 用 递增 减少 -误差 修剪 算法 来 生成 规则 ， 特 别 是 在 大 的 数据 集 上 ， 效 果 相 当 
不 错 。 但 是 ， 在 规则 集 上 使 用 全 局 优化 步骤 能 获得 有 价值 的 性 能 优势 。 动 机 是 通过 修改 或 替 
换个 体 规则 来 提高 规则 集 的 正确 率 。 实 验 显示 使 用 后 归纳 (post induction) 优化 ， 规 则 集 的 
大 小 和 性 能 都 获 明 显 改 善 。 但 另 … 方 面 ， 程 序 本 身 相当 复杂 。 

为 了 对 这 个 精巧 的 、 富 有 启发 的 以 及 具有 产业 价值 的 规则 学 习 器 是 怎样 形成 的 提供 一 个 
概念 ， 图 6-4 展 示 了 “种 称 为 RIPPER 的 算法 ， 它 是 “重复 递增 修剪 以 减少 误差 ”的 缩写 。 检 
译 者 注 ) 由 小 到 大 的 顺序 来 进行 ， 类 的 初始 规则 集 是 用 
递增 减少 -误差 修剪 算法 产生 的 。 引 入 一 个 额外 的 停止 条 件 ， 它 是 依赖 于 样本 和 规则 集 的 描述 
长 度 。 描 述 长 度 DL 有 一 个 复杂 的 公式 ， 它 要 考虑 传送 关于 某 组 规则 的 一 组 样本 所 需 的 位 数 ， 
传送 带 有 k 个 条 件 的 规则 所 需 的 位 数 ， 以 及 传送 整数 k 所 需 位 数 之 和 ， 乘 以 50% 用 以 补偿 可 能 
发 生 的 重复 属性 所 需 的 位 数 。 在 为 某 个 类 建立 了 规则 集 之 后 ， 重 新 考虑 每 条 规则 ， 产 生 两 种 
变 体 ， 再 次 使 用 减少 -误差 修剪 法 ， 但 在 这 个 阶段 ， 把 为 这 个 类 而 建 的 其 他 规则 所 有 覆盖 的 实例 
从 修剪 集中 去 除 ， 在 剩余 的 实例 上 所 获 的 成 功率 用 来 作为 修剪 标准 。 如 果 两 种 变 体 中 的 某 一 
种 产生 -个 较 好 的 描述 长 度 ， 便 用 它 来 替换 规则 。 接 下 来 再 次 激活 最 初 的 创建 规则 阶段 ， 对 
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任何 属于 这 个 类 而 未 被 规则 覆盖 的 实例 进行 扫尾 工作 。 为 了 确保 每 条 规则 对 减少 描述 长 度 都 
做 了 贡献 ， 在 进行 下 一 个 类 的 规则 生成 程序 之 前 要 做 最 后 的 检查 。 
将 E 初 始 化 为 实例 集 





对 每 个 类 C， 从 最 小 到 最 大 
By. 
将 E 按 2 : 1 分 型 为 成 长 集 和 修剪 集 
重复 循环 直至 (a) 不 存在 未 被 覆盖 的 、 类 别 为 C 的 实例 ; 或 (b) 规则 集 和 实例 集 的 描述 长 度 
(DL) 比 日 前 找到 的 最 短 描述 长 度 大 64 位 以 上 ; 或 (c) 误差 率 超 过 50%: 
成 长 阶段 : 贪心 式 地 增加 条 件 来 建立 规则 ， 直 至 规则 达到 100% 正 确 举 ，( 所 增加 的 条 件 
是 ) 通过 测试 每 个 属性 的 每 种 可 能 属性 值 ， 并 选择 其 中 能 获得 最 大 信息 增益 G 的 条 件 
修剪 阶段 ; 从 最 后 ~ :个 条 件 往 前 依次 修剪 条 件 ， 只 要 规则 的 价值 W 上 升 则 继续 
优化 : 
产后 变 体 : 
对 于 类 别 C 的 每 个 规则 R . 
重新 将 E 分 裂 为 成 长 集 和 修剪 集 
从 修剪 集中 去 除 类 别 C 的 其 他 规则 所 肿 盖 的 实例 
使 用 GROW 和 PRUNE 在 新 分 裂 的 数据 上 产生 并 修剪 两 个 竞争 规则 
R1 是 一 个 重建 的 新 规则 
R2 是 通过 贪心 式 地 在 R 中 添加 测试 条 件 来 生成 的 
采用 A 衡量 (代替 W) 在 碱 少 的 数据 上 上 进行 修剪 
选择 代表 : 
将 R、R1 和 R2 中 描述 长 度 最 小 的 -一 个 来 代 赫 R 
要 尾 : 


如 果 还 有 未 被 (规则 ) 覆盖 的 、 属 于 类 别 C 的 残余 实例 ， 则 返回 到 
建立 (BUILD) 阶段 ， 在 这 些 实例 上 建立 更 多 的 规则 
整理 : 
为 整个 规则 集 计算 DL( 描 述 长 度 ) 并 依次 除去 规则 集中 的 每 个 规则 计算 DL; 去 除 使 DL 增加 的 
规则 
去 除 由 生成 的 规则 所 覆盖 的 实例 
a) 规则 学 习 算 法 
DL: 描述 长 度 
G=p[log(p/t) - logi P/T)] 





A= 2" MUN TE 


P= US AR ( 正确 的 肯定 ) 

n= 规则 所 覆盖 的 否定 样本 数量 (错误 的 否定 ) 

1= p+n; SNR AHA BR 

n=N-n, 未 被 规则 覆盖 的 否定 样本 数量 ( 正确 的 否定 ) 
P= 属于 这 个 类 的 肯定 样本 数量 

N= 属于 这 个 类 的 在 定 样本 数量 

T= P+N， 属 于 这 个 类 的 样本 总 数 


b) 符号 的 意义 


图 6-4 RIPPER 
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6.2.5 从 局 部 决策 树 中 获得 规则 

规则 归纳 还 有 另外 一 种 方法 ， 它 避免 了 全 局 优化 但 能 生成 -一 个 精确 的 、 紧 竣 型 的 规则 集 。 
这 个 方法 将 决策 树 学 习 所 应 用 的 分 治 策略 和 规则 学 习 的 割 治 策略 结合 起 来 。 它 是 这 样 采用 割 
治 策略 的 ， 先 建立 一 条 规则 ， 将 规则 所 覆盖 的 实例 去 除 ， 然 后 递归 地 为 剩余 的 实例 建立 规则 
直至 没有 剩余 实例 。 它 与 标准 方法 的 不 同 之 处 在 于 每 条 规则 都 是 创建 出 来 的 。 在 本 质 上 ， 创 
建 一 条 规则 就 是 先 为 当前 的 实例 集 创建 一 个 经 修剪 的 决策 树 ， 将 覆盖 实例 最 多 的 叶 节 点 转换 
成 一 条 规则 ， 然 后 丢弃 这 个 决策 树 。 

重复 建 决策 树 只 是 为 了 要 丢弃 绝 大 部 分 树 ， 但 它 的 前 景 并 不 像 表面 看 起 来 的 那样 古怪 。 
利用 经 修剪 的 树 来 得 到 一 条 规则 ， 取 代 通 过 每 次 去 除 一 个 联合 条 件 递增 地 修剪 规则 ， 可 以 避 
免 过 度 修 前 倾向， 过度 修剪 是 基本 的 割 治 规则 学 习 法 的 一 个 特殊 问题 。 将 割 治学 习 法 和 决策 
树 结合 起 来 能 提高 灵活 性 和 速度 。 建 立 完整 决策 树 只 是 为 了 要 得 到 一 条 规则 ， 的 确 是 很 浪费 ， [206 
然而 这 个 程序 还 可 被 显著 加 速 而 不 牺 和 性 上 述 优点 。 207 

关键 思路 是 建 局 部 决策 树 而 不 展开 整个 树 。 局 部 决策 树 是 一 个 普通 的 决策 树 ， 它 包含 了 
- 些 未 定义 子 树 的 分 支 。 为 了 建 这 样 的 树 ， 将 建构 和 修剪 操作 结合 成 一 体 以 便 能 找到 一 个 
“稳定 ”的 、 不 能 再 简化 的 子 树 。 一 旦 找到 这 样 的 子 树 ， 建 树 过 程 即 停止 并 从 中 读 出 一 条 规则 
来 。 

图 6-5 总 结 了 建树 的 算法 : 它 将 一 组 实例 递归 地 分 裂 成 一 个 局 部 树 。 第 -- 步 是 选择 一 种 测 
试 条 件 将 实例 集 分 成 几 个 子 集 。 这 个 测试 条 件 的 决定 是 采用 建 决策 树 时 常用 的 信息 增益 法 
(4.3 节 )。 然 后 将 子 集 按 它们 的 平均 炉 的 升序 依次 展开 。 这 样 做 的 原因 是 排 在 后 面 的 子 集 很 可 
能 不 因 这 次 展开 而 结束 ， 而 平均 糖 较 低 的 子 集 更 可 能 导致 形成 小 的 子 树 ， 从 而 产生 一 个 更 通 
用 的 规则 。 递 归 进 行 这 个 过 程 直到 这 个 子 集 展开 成 为 叶 节 点 ， 然 后 返回 继续 下 一 步 。 一 旦 出 
现 一 个 内 部 节点 ， 它 的 所 有 子 节 点 都 成 了 叶 节 点 ， 算 法 就 立即 检查 是 否 用 一 个 叶 节 点 来 壕 换 
这 个 内 部 节点 会 更 好 。 这 正 是 用 于 决策 树 修剪 的 标准 的 “ 子 树 置换 ”操作 ( 见 6.1 节 )。 如 果 
执行 了 置换 操作 ， 算 法 接着 按 标准 方式 返回 ， 展 开 这 个 新 近 置 换 节点 的 同胞 节点 。 但 是 ， 如 
果 在 返回 时 ， 过 到 某 个 节点 ， 它 的 所 有 已 展开 的 子 节点 并 不 全 是 叶 节 点 ， 当 有 一 个 六 在 的 子 
树 置换 没有 执行 时 ， 就 会 发 生 剩 下 的 子 集 不 再 展开 ， 相 应 的 子 树 也 就 未 被 定义 。 由 于 算法 采 
用 了 递归 结构 ， 这 种 情况 的 出 现 会 自动 终止 建树 过 程 。 


展开 子 集 (S): 
选择 一 个 测试 T， 将 实例 集 分 裂 为 子 集 
将 子 集 按 平均 箭 的 升序 排列 
当 (存在 -个 未 被 展开 的 子 集 X， 
并 且 日 前 已 展开 的 所 有 子 集 都 是 叶 节 点 }， 则 


展开 子 集 (X) 
如 果 〈 所 有 的 已 展开 的 子 集 部 是 叶 节 点 ， 
并 生子 树 估计 误差 > 节点 估计 误差 ) 
取消 子 集 的 展开 并 且 将 该 节点 变 为 一 个 时 节点 
图 6-5 将 样本 展开 成 局 部 树 的 算法 


图 6-6 展 示 了 一 个 逐步 建 局 部 树 的 例子 。 从 图 6-6a 到 图 6-6c 的 各 个 阶段 ， 是 按 一 般 的 方式 
进行 递归 建树 ， 除 了 每 次 展开 都 是 从 同胞 节点 中 选择 含 最 低 炳 的 那个 节点 进行 :从 图 6-6a 到 [208 
图 6-6b 阶 段 是 节点 3。 灰 色 椭 圆 节点 是 目前 还 未 展开 的 节点 ;长 方形 节点 是 叶 节 点 。 从 图 6-6b 
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到 图 6-6c, 长 方形 节点 比 同胞 节点 (节点 5) RR, PERI ACHE RFT. ix 
时 便 进行 返回 过 程 ， 节 点 5 被 选择 进行 展开 。 一 旦 到 达 图 6-6c 阶 段 ， 出 现 了 一 个 节点 5， 它 的 
所 有 子 节 点 都 被 展开 成 为 叶 节 点 ， 这 触发 了 修剪 操作 。 考 虑 并 接受 了 对 节点 5 进行 子 树 置 换 ， 
进入 图 6-6d 阶 段 。 现 在 又 要 考虑 对 节点 3 进行 子 树 置 换 ， 这 个 操作 也 被 接受 了 。 继 续 进 行 返回 
操作 ， 节 点 4 的 炉 比 节点 2 小 ， 因 此 被 展开 成 2 个 叶 节 点 。 现 在 要 考虑 对 节点 4 的 子 树 置换 了 : 
假设 节点 4 没有 被 置换 。 这 时 程序 便 在 图 6-6e 阶 段 终止 ， 形 成 带 有 3 个 叶 节 点 的 局 部 树 。 


全 公公 


a) b) c) 





d) 
图 6-6 建立 局 部 树 的 例子 


如 果 数 据 是 无 干扰 的 ， 并 且 包 含 了 足够 实例 以 避免 算法 进行 任何 修剪 操作 ， 那 么 算法 只 
会 展开 完全 树 中 的 一 条 路 径 。 与 每 次 将 整个 树 都 展开 的 原始 方法 相 比 ， 这 种 方法 便 获得 了 最 
大 的 性 能 收益 。 这 个 收益 随 着 修剪 操作 的 增加 而 降低 。 对 于 数值 属性 的 数据 集 来 说 ， 算 法 的 
渐 近 时 间 复 杂 度 和 建 完全 决策 树 是 相同 的 ， 因 为 在 这 种 情形 下 复杂 度 是 由 属性 值 排序 所 需 时 
间 首 先 主 控 的 。 

一 旦 建立 了 局 部 树 ， 便 能 从 树 中 提炼 出 一 条 规则 。 每 个 叶 节 点 对 应 于 一 条 可 能 的 规则 ， 
我 们 要 在 那些 被 展开 成 叶 节 点 的 子 树 (少数 的 几 个 子 树 ) 中 寻找 一 个 “最 好 ”的 叶 节 点 。 试 
验 显 明 最 好 是 选择 覆盖 实例 数量 最 多 的 叶 节点 以 得 到 最 为 通用 的 规则 。 

当 一 个 数据 集 含有 残缺 值 时 ， 可 以 用 建 决 策 树 时 使 用 的 相同 方法 。 如 果 一 个 实例 由 于 残 
缺 值 问题 而 不 能 分 到 任何 分 支 中 ， 就 将 它 按照 权 值 比例 分 到 每 个 分 支 ， 权 值 比例 是 将 各 个 分 
支 所 含 的 训练 实例 数量 ， 用 节点 所 含 的 所 有 已 知 训练 实例 数量 进行 正常 化 得 到 的 。 在 测试 中 ， 
对 每 条 规则 也 使 用 同样 的 程序 ， 这 样 便 可 将 权 值 和 每 条 规则 在 测试 实例 上 的 应 用 联系 起 来 了 。 
在 进行 规则 列 中 的 下 一 条 规则 测试 之 前 ,将 这 个 权 值 从 实例 的 总 权 值 中 扣除 。 -一旦 权 值 减 到 0， 
便 将 预测 类 的 概率 根据 权 值 组 合 起 来 形成 最 终 分 类 结果 。 

这 便 产 生 了 一 个 用 于 干扰 数据 决策 列 学 习 的 简单 却 出 乎 意料 有 效 的 方法 。 对 比 其 他 一 些 
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规则 形成 方法 ， 它 的 主要 优势 在 于 简便 ， 因 为 其 他 方法 需要 采用 复杂 的 全 局 优化 才能 达到 相 
当 的 性 能 水 准 。 


6.2.6 包含 例外 的 规则 


在 3.5 节 中 曾 学 习 到 规则 的 自然 延伸 便 是 允许 它们 有 例外 ， 以 及 例外 的 例外 等 等 。 实 际 上 
整个 规则 集 可 以 被 看 作 是 当 设 有 应 用 其 他 规则 时 的 一 个 缺 省 分 类 规则 的 例外 。 利 用 前 一 节 所 
述 的 某 种 衡量 方案 来 产生 一 个 “好 ”规则 的 方法 ， 正 是 提供 了 一 种 产生 包含 例外 的 规则 所 需 
的 机 构 。 

首先 ， 为 最 顶层 的 规则 选择 一 个 缺 省 类 ， 自 然 是 使 用 在 训练 集中 最 常 出 现 的 类 。 然 后 ， 
找到 关于 某 个 类 的 一 条 规则 ， 这 个 类 是 指 任何 一 个 有 别 于 缺 省 值 的 类 。 自 然 是 要 在 所 有 类 似 
的 规则 中 寻找 最 有 辨别 能 力 的 ， 比 如 ， 在 测试 集 上 评估 结果 最 好 的 那个 。 假 设 这 条 规则 有 如 
下 形式 

如 果 < 条 件 满 足 > 那么 类 = < 新 的 类 > 

用 它 可 将 训练 集 数据 分 裂 成 两 个 子 集 : 一 个 包含 所 有 能 满足 规则 条 件 的 实例 ， 另 一 个 则 
包含 所 有 不 满足 规则 条 件 的 实例 。 如 果 任 何 一 个 子 集中 含有 属于 一 个 以 上 的 类 的 实例 ， 便 在 
这 个 子 集 上 递归 调用 算法 。 对 于 能 满足 条 件 的 子 集 来 说 ,“ 缺 省 类 ”就 是 规则 中 所 指定 的 新 的 
类 ; 对 于 不 能 满足 条 件 的 子 集 来 说 ， 缺 省 类 就 保持 原来 所 定 的 类 。 

对 于 3.5 节 中 所 给 出 的 含有 例外 的 规则 ， 这 些 规则 是 关于 表 1-4 的 访 尾 花 数据 的 ， 下 面 来 检 
验 这 个 算法 是 如 何 工作 的 。 我 们 用 图 6-7 所 示 的 图 形 形 式 来 代表 规则 ， 它 等 价 于 前 面 图 3-5 中 用 
文字 来 代表 的 规则 。 缺 省 值 蔓 尾 花 setosa 是 进入 节点 ， 位 于 左上 方 。 水 平 虚 线路 径 指向 的 是 
例外 ， 因 此 接 下 来 的 方 框 ， 内 含 结论 为 弯 尾 花 versicolor 的 一 条 规则 ， 便 是 缺 省 值 的 一 个 例外 。 
在 它 的 下 方 是 男 一 个 选择 项 ， 第 二 个 例外 ， 选 择 项 路 径 用 垂直 实 线 导致 结论 是 萝 尾 花 
virginica 。 上 方 的 路 径 沿 水 平方 向 通 向 齐 尾 花 versicolor 规 则 的 一 个 例外 ， 只 要 右上 方 框 中 的 
RFR, MAB SSE virginica HEM GSE versicolor 规 则 结论 。 这 个 例外 的 下 方 是 另 一 
个 选择 项 ，( 碰 巧 ) 导致 相同 的 结论 。 回 到 下 方 中 间 的 方 框 ， 它 也 有 自己 的 例外 ， 即 右 下 方 结 
tA Bete versicolor 的 方 框 。 每 个 方 框 右 下 角 所 示 的 数字 是 规则 的 “正确 率 ”， 它 是 用 符合 
规则 的 实例 数量 除 以 满足 测试 条 件 但 结论 不 一 定 相 符 的 实例 数量 来 表示 。 例 如 ， 位 于 上 方 中 
间 的 方 框 中 所 列 的 条 件 应 用 于 52 个 实例 ， 其 中 有 49 个 是 属于 蕊 尾 花 versicolor 的 。 这 种 表示 法 
的 长 处 在 于 ， 你 能 感觉 到 位 于 左 侧 方 框 中 的 规则 效果 非常 好 ; 而 位 于 右 侧 的 方 框 中 的 只 是 覆 
盖 少 数 儿 个 例外 的 情况 。 

为 了 要 产生 这 些 规则 ， 将 缺 省 值 先 定 为 芒 尾 花 setosa， 通 常 是 选择 数据 集中 最 频繁 出 现 的 
类 。 在 这 里 是 任意 选择 的 ， 因 为 对 这 个 数据 集 来 说 ， 所 有 的 类 都 正好 出 现 50 次 ; 正如 图 6-7 所 
未 ， 这 个 缺 省 “规则 ”在 150 种 情形 中 有 50 种 是 正确 的 。 然 后 寻找 出 能 预测 其 余 类 的 最 好 规则 。 
在 这 个 例子 中 是 


if petal length > 2.45 and petal length < 5.355 
and petal width < 1.75 then Iris versicolor 


这 条 规则 覆盖 了 52 个 实例 ， 其 中 49 个 属于 芒 尾 花 versicolor。 它 将 数据 集 分 裂 成 两 个 子 集 : 52 
个 满足 规则 条 件 的 实例 ， 剩 余 的 98 个 不 满足 条 件 。 
先 处 理 前 一 部 分 子 集 ， 这 部 分 实例 的 缺 省 类 是 莹 尾 花 versicolor: 只 有 3 个 实例 例外 ， 这 3 
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AY SEALER SBIR BEE virginica. MPIXT TR, MMAR BLE versicolor 的 最 好 的 


规则 是 : 


if petal length > 4.95 and petal width < 1.55 then Iris virginica 


~R J . 
setosa 50/150 









例外 用 虚线 路 径 
表示 .选择 项 用 


ee K< 4.95 
{ESE RE > 2.45 
~ YUE virginica 

1/1 

















花瓣 长 <4.85 
化 坦 长 <$.9Sv 
~ SHE versicolor 






图 6-7 麻尾 花 数据 的 包含 例外 的 规则 


它 覆 盖 了 3 个 密 尾 花 virginica 实 例 中 的 2 个 , 没有 其 他 的 . 这 条 规则 将 子 集 再 次 分 裂 成 两 个 部 分 : 
满足 规则 条 件 的 和 不 满足 条 件 的 。 所 幸 的 是 ， 这 次 满足 条 件 的 实例 都 是 属于 蔓 尾 花 virginica , 
因此 不 再 需要 例外 了 。 但 是 剩 下 的 实例 中 还 包含 着 第 二 个 恋 尾 花 virginica 实例 和 49 个 属于 缺 
省 类 的 蔓 尾 花 versicolor 实例 。 再 次 找到 最 好 的 规则 : 

if sepal length < 4.95 and sepal width > 2.45 then Iris virginica 
iX RAM TRAYS SVE virginica 实 例 ， 没 有 其 他 的 ， 因 此 也 不 再 需要 例外 。 而 且 
子 集中 所 有 其 他 不 满足 这 个 规则 条 件 的 实例 都 是 属于 雍 尾 花 versicolor 类 的 ， 这 正 是 当前 的 缺 
省 类 ， 因 此 不 再 需要 做 什么 了 。 

现在 返回 到 由 初始 规则 分 裂 出 的 第 二 部 分 子 集 ， 所 有 不 满足 下 面条 件 的 实例 : 

petal length > 2.45 and petal length < 5.355 and petal width < 1.75 

At Pee Hl, FMS TR I ESTE setosa 的 所 有 规则 中 最 好 的 是 

if petal length > 3.35 then Iris virginica 

它 币 盖 了 这 个 样本 集 所 含 的 所 有 47 个 昔 尾 花 virginica 实 例 (如 前 面 所 解释 的 ， 另 外 3 个 被 
第 一 条 规则 去 除了 )。 它 还 包含 一 个 谈 尾 花 versicolor 实例 。 这 就 需要 用 最 后 那 条 规则 作为 例 
外 处 理 : 

if petal length < 4.85 and sepal length < 5.95 then Iris versicolor 
FANE, FURL ATR EB Fe ALAR Ft HK EZ HE setosa 。 因 此 结束 整个 程序 。 

所 产生 的 这 些 规 则 有 个 特点 ， 即 大 多 数 的 实例 都 被 高 层 的 规则 所 覆盖 ， 而 低层 的 规则 正 
是 代表 例外 。 例 如 ， 先 前 规则 中 的 最 后 一 个 例外 条 款 以 及 由 套 的 else 条 款 的 最 深层 都 只 覆盖 了 
单个 实例 ， 如 将 它们 去 除 几 乎 不 会 有 什么 影响 。 即 使 是 其 余 的 嵌 套 内 的 例外 规则 也 只 是 覆盖 
了 2 个 实例 。 因 此 人 们 可 以 忽略 所 有 深层 结构 而 只 关心 前 面 的 一 、 二 层 便 能 对 这 些 规则 到 底 干 
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什么 能 有 非常 清楚 的 认识 。 这 正 是 包含 例外 规则 的 诱 人 之 处 。 


6.2.7 讨论 

以 上 所 讨论 的 所 有 产生 分 类 规则 的 算法 都 是 使 用 基本 的 覆盖 或 割 治 方案 。 对 于 简单 而 无 
干扰 的 情形 ， 所 使 用 的 是 -种 简单 易 懂 的 算法 ， 称 为 PRISM (Cendrowska，1987 年 )。 当 应 用 
于 有 闭合 假设 的 二 类 问题 ， 只 需要 对 其 中 的 一 个 类 建立 规则 ， 那 样 的 规则 属于 析 取 范式 ， 应 
用 于 测试 实例 时 不 会 产生 模棱两可 的 情形 。 当 应 用 于 多 类 问题 ， 则 为 每 个 类 生成 一 个 规则 集 ， 
这 样 一 个 测试 实例 可 能 被 赋予 -一 个 以 上 的 类 别 ， 或 者 一 个 也 没有 ， 如 果 是 要 寻找 单一 的 预测 
类 的 话 ， 有 必要 考虑 进 一 步 的 解决 方法 。 

为 减少 干扰 情形 下 的 过 度 拟 合 问题 ， 有 必要 产生 一 些 其 至 在 训练 集 上 也 不 “完美 ”的 规 
则 。 为 了 做 到 这 点 ， 需 要 对 规则 的 “良好 度 ” 或 价值 进行 衡量 。 有 了 这 种 衡量 ， 才 有 可 能 放 
弃 基 本 的 覆盖 算法 所 使 用 的 一 个 类 接 -个 类 的 逐个 进行 的 方法 ， 而 采用 以 产生 最 好 的 规则 为 
开端 ， 无 论 它 是 对 哪个 类 别 的 预测 ， 然 后 将 这 个 规则 所 覆盖 的 所 有 实例 去 除 ， 再 继续 这 个 过 
程 。 这 形成 了 产生 决策 列 的 方法 ， 而 不 是 产生 一 系列 独立 的 分 类 规则 。 决 策 列 的 重大 优点 是 
用 它们 做 判定 说 明 时 不 会 产生 一 些 不 明确 的 结论 。 

递增 减少 -误差 修剪 法 的 思想 要 归功 于 Fiirnkranz 和 Widmer (199446), ， 为 快速 且 有 效 的 规 
则 归纳 法 的 形成 商定 了 基础 。RIPPER 规 则 学 习 器 是 由 Cohen (1995 年 ) 提出 的 , 尽管 公开 发 表 
的 论述 在 关于 描述 长 度 DL 怎 样 影响 停止 条 件 问 题 上， 看 起 来 与 实现 时 有 所 不 同 。 这 里 呈现 的 
只 是 算法 的 -… 些 基本 理念 ; 在 实现 时 还 有 太 多 的 细 贡 。 

衡量 --- 条 规则 的 价值 问题 至 今 还 未 得 到 满意 的 解决 。 人 们 提议 了 许多 不 同 的 方法 ， 一 些 
是 属于 探索 式 的 ， 另 `- 些 基于 信息 理论 或 概率 。 然 而 ， 至 于 哪 种 才 是 最 好 的 方案 还 没有 达成 
统 . -意见 。Firnkranz 和 Flach 对 于 各 种 不 同 标准 做 了 次 入 的 理论 研究 〈 即 将 完成 )。 

基于 局 部 决策 树 的 规则 学 习 方 法 是 由 Frank 和 Witten (19984) 创建 的 。 它 所 产生 的 规则 
集 的 正确 率 等 同 于 由 C4.5 所 产生 的 结果 ， 并 且 比 其 他 一 些 快速 规则 归纳 法 的 正确 率 更 高 。 然 
而 ， 它 的 主要 优点 不 在 于 性 能 上 ， 而 在 于 它 的 简单 性 : 将 自 上 而 下 的 决策 树 归纳 法 和 制 治 规 
则 学 习 法 结合 起 来 ， 它 不 需要 进行 全 局 优化 却 能 获得 好 的 规则 集 。 

产生 包含 例外 的 规则 的 程序 是 由 Gaines 和 Compton (1995 年 ) 在 创建 归纳 系统 时 提出 的 一 
种 主张 ， 称 为 ripple-down 规则 。 在 对 一 个 大 型 的 医学 数据 集 (22 000 个 实例 ，32 个 属性 ，60 
个 类 别 ) 做 试验 时 ， 他 们 发 现 用 含 例 外 的 规则 来 表现 大 型 系统 ， 相 比 用 普通 规则 来 表现 等 价 
的 系统 更 易于 理解 。 因 为 这 正 符合 人 们 对 于 复杂 的 医学 诊断 所 使 用 的 思考 方式 。Richards 和 
Compton ( 1998 年 ) 把 它们 描述 成 是 典型 知识 工程 的 另 一 种 方法 。 


6.3 扩展 线性 模型 


第 4.6 节 中 介绍 了 如 何在 所 有 属性 都 为 数值 型 的 情形 下 ,使 用 简单 的 线性 模型 进行 分 类 。 
它们 最 大 的 缺陷 是 只 能 描绘 存在 于 类 之 间 的 线性 边界 ， 对 于 很 多 实践 应 用 来 说 ， 这 未 免 太 过 
简单 了 。 支 持 向 量 机 能 利用 线性 模型 来 实现 对 非 线 性 分 类 边界 的 描 给 。( 虽 说 支持 向 量 机 是 一 
个 应 用 广泛 的 术语 ， 却 有 点 用 词 不 当 ， 实 际 上 是 算法 ， 而 不 是 机 器 .) 这 怎么 可 能 呢 ? 诀窍 很 
简单 ， 将 输入 进行 非 线 性 映射 的 转换 ， 换 名 话说 ， 将 实例 空间 转换 为 一 个 新 的 空间 。 由 于 用 
了 非 线性 映射 ， 在 新 空间 里 的 一 -条 直线 ， 在 原来 的 空间 里 看 起 来 却 不 是 直 的 。 在 新 空间 里 建 
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立 的 线性 模型 可 以 代表 在 原来 空间 里 的 非 线 性 决策 边界 。 

想象 一 下 在 4.6 节 中 介绍 的 普通 线性 模型 中 直接 应 用 这 个 想法 。 例 如 ， 原 先 的 属性 集 可 以 
被 替换 成 它们 所 能 组 成 的 所 有 n 次 乘积 所 形成 的 属性 集 。 举 例 来 说 ， 对 于 两 个 属性 ， 所 能 组 成 
的 所 有 3 次 乘积 便 是 


_ 3 2 2 3 
X=wa +W,a; a, 十 W30102 + W,a, 


这 里 x 是 结果 ，al 和 a, 是 两 个 属性 值 ， 有 4 个 权 值 w; 需要 进行 学 习 。 如 4.6 节 所 述 ， 结 果 可 
用 于 分 类 。 针 对 每 个 类 各 训练 出 一 个 线性 系统 ， 将 一 个 未 知 的 实例 归 到 输出 结果 值 x 最 大 的 类 ， 
这 是 多 反馈 线性 回归 的 标准 方法 。a, 和 as 是 测试 实例 的 属性 值 。 为 了 要 在 这 些 乘 积 所 跨越 的 空 
间 上 形成 一 个 线性 模型 ， 每 个 训练 实例 通过 计算 它 的 两 个 属性 值 所 有 可 能 的 3 次 乘积 ， 被 映射 
到 新 的 空间 。 学 习 算 法 也 因此 被 应 用 到 转换 了 的 实例 集 上 。 为 了 要 对 一 个 实例 进行 分 类 ， 在 
分 类 前 也 要 对 实例 先进 行 相同 的 转换 处 理 。 没 有 什么 可 以 阻止 我 们 增添 更 多 的 合成 属性 。 比 
如 ， 如 果 再 包括 一 个 常数 项 、 原 始 属 性 自身 以 及 所 有 的 2 次 乘积 ， 总 共 将 产生 10 个 需要 学 习 的 
权 值 。( 或者， 增加 一 个 额外 的 属性 ， 属 性 值 永远 是 一 个 常数 ， 效 果 也 是 一 样 的 。) 实际 上 ， 
达到 足够 高 的 次 数 的 多 项 式 能 以 任何 要 求 的 精确 度 接近 决策 边界 。 

似乎 好 得 难以 置信 ， 的 确 如 此 。 你 也 许 已 猜测 到 ， 由 于 现实 设置 的 转换 引入 的 大 量 系数 
会 使 这 个 过 程 出 现 问题 。 第 一 个 障碍 是 计算 复杂 度 。 假 设 原始 数据 集中 有 10 个 属性 ， 我 们 要 
包含 所 有 的 5 次 乘积 ， 那 么 这 个 学 习 算法 必须 要 确定 2000 多 个 系数 。 如 果 对 于 线性 回归 ， 运 行 
时 间 以 属性 数量 的 立方 来 计算 ， 训 练 将 无 法 实现 。 这 是 一 个 实用 性 问题 。 第 二 个 问题 是 个 基 
本 问题 ， 过 度 拟 合 。 如 果 相 对 于 训练 实例 的 数量 系数 数目 过 多 ， 那 么 所 形成 的 模型 会 “过 度 
非 线性 化 ， 将 对 训练 数据 过 度 拟 合 。 模 型 中 的 参数 实在 是 太 多 了 。 


6.3.1 最 大 边际 超 平面 


支持 向 量 机 能 解决 这 两 个 问题 。 支 持 向 量 机 是 基于 寻找 一 种 特别 的 线性 模型 : 最 大 边际 
超 平面 (maximum margin hyperplane) 的 算法 。 我 们 已 经 知道 了 超 平面 ， 它 只 是 线性 模型 的 
另 一 个 用 词 。 为 了 从 视觉 上 感受 一 下 最 大 边际 超 平面 ， 想 象 有 一 个 含有 两 个 类 的 数据 集 ， 这 
两 个 类 是 可 以 被 线性 分 隔 的 ; 也 就 是 说 在 实例 空间 上 存在 一 个 超 平 面 能 对 所 有 的 训练 实例 进 
行 正确 分 类 。 最 大 边际 超 平面 是 一 个 能 使 两 个 类 之 间 达 到 最 大 限度 分 离 的 超 平面 ， 它 对 两 个 
类 都 是 尽 可 能 地 不 靠近 。 图 6-8 中 给 出 了 一 个 例子 ， 两 个 类 分 别 用 空心 圈 和 实心 圈 来 表示 。 从 
技术 上 说 ， 一 柔 列 点 的 凸 包 即 最 紧凑 的 凸 多 边 形 ， 它 的 轮廓 是 通过 将 每 个 点 与 其 他 所 有 的 点 
连接 而 形成 的 。 我 们 已 经 假设 这 两 个 类 是 线性 分 隔 的 ， 它 们 的 凸 包 不 能 重 又 。 在 所 有 能 分 隔 
这 两 个 类 的 超 平面 中 ， 最 大 边际 超 平 面 是 其 中 离 两 个 山 包 距离 尽 可 能 远 的 那个 ， 它 垂直 于 两 
个 凸 包间 上 距离 最 短 的 线段 ( 见 图 中 的 虚线 )。 

最 靠近 最 大 边际 超 平面 的 实例 即 距离 超 平面 最 近 的 实例 ， 称 为 支持 向 量 。 每 个 类 至 少 有 
一 个 支持 向 量 ， 经 常 是 多 个 。 重 要 的 是 支持 向 量 能 为 学 习 问 题 定义 独特 的 最 大 边际 超 平面 。 
给 出 两 个 类 的 支持 向 量 ， 我 们 可 以 很 容易 地 建造 最 大 边际 超 平 面 。 其 他 的 训练 实例 都 是 无 关 
紧要 的 ， 即 使 被 去 除 也 不 会 改变 超 平面 的 方位 。 

在 含有 两 个 属性 的 情况 下 ， 一 个 分 隔 两 个 类 的 超 平面 可 表达 为 


X = WotWa)+W,a, 
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sui 











支持 向 量 | 
图 6-8 最 大 边际 超 平面 | [216 
其 中 a, 和 a: 是 两 个 属性 值 ， 有 3 个 权 值 w, 需要 学 习 。 然 而 ， 定 义 最 大 边际 超 平面 的 等 式 也 可 以 ， 
从 支持 向 量 的 角度 ， 用 另 一 种 形式 表示 。 训 练 实例 的 类 值 ?是 1 (表示 yes， 属 于 这 个 类 ), R 
者 -1 (表示 no， 不 属于 这 个 类 )。 那 么 最 大 边际 超 平面 就 是 | 
x=b+ Da y,a(i)-a 
i 是 支持 向 量 
ZE, y 是 训练 实例 a(i) WAH; bia 是 需要 由 学 习 算法 来 决定 的 数值 参数 。 注意 a(D 和 a 是 
向 量 。 向 量 a 代 表 一 个 测试 实例 ， 正 如 在 前 面 公式 中 向 量 [a1, oj] 代表 一 个 测试 实例 一 样 。 向 量 | 
a( 站 是 支持 向 量 ， 即 图 6-8 中 被 图 起 来 的 点 ， 它 们 是 从 训练 集中 挑选 出 的 。a(i) - a 代表 了 测试 . 
实例 和 一 个 支持 向 量 的 标量 积 (点 积 )。 各 果 你 对 标 晤 积 的 概念 不 可 天， 你 依然 能 理解 随后 的 
要 点 ， 只 要 把 a(i) 看 作 是 第 i 个 支持 向 量 的 整个 属性 值 系列 。 最 后 ，b 和 a; 是 决定 超 平面 的 参数 ， 
就 像 在 前 面 一 个 公式 中 we、w; 和 w: 是 决定 超 平面 的 参数 。 
寻找 实例 集 的 支持 向 量 ， 并 决定 参数 5 和 a ， 属 于 标准 的 优化 问题 ， 称 为 受 限 的 二 次 优化 
(constrained quadratic optimization )。 有 现成 的 软件 可 用 来 解决 这 些 问 题 (参见 Fletcher, 1987 | | 
年 ,介绍 了 全 面 、 实 用 的 解决 方法 )。 然 而 ， 如 果 采 用 特别 的 算法 来 训练 支持 向 量 机 ， 可 降低 计 
算 复杂 度 、 加 速 学 习 过 程 ， 但 这 些 算法 的 详细 内 容 不 在 本 书 讨 论 的 范围 内 (Platt，1998 年 )。 


6.3.2 非 线性 类 边界 


我 们 是 因为 断言 支持 向 量 机 可 用 于 模拟 非 线性 分 类 边界 而 引入 介绍 支持 向 量 机 的 。 但 到 
目前 为 止 ， 我 们 只 讲述 了 线性 的 情况 。 考 虑 一 下 在 决定 最 大 边际 超 平面 之 前 ， 对 训练 集 数据 
进行 如 前 所 述 的 属性 转换 将 会 发 生 什么 。 直 接应 用 这 种 转换 来 建立 线性 模型 ， 存 在 两 个 问题 : 
一 个 是 无 法 实现 的 计算 复杂 度 ， 另 一 个 是 过 度 拟 合 。 

使 用 支持 向 量 ， 过 度 拟 合 不 太 可 能 发 生 。 过 度 拟 合 的 原因 是 与 不 稳定 性 密切 相关 的 ， 改 
动 -个 或 两 个 实例 向 量 会 引起 大 范围 的 决策 边界 的 变化 。 但 最 大 边际 超 平面 则 相对 比较 稳定 : 27 
只 有 当 被 增加 或 去 除 的 训练 实例 是 支持 向 量 时 ， 边 界 才 会 变动 。 即 使 在 经 非 线 性 转换 的 高 维 
空间 也 是 如 此 。 过 度 拟 合 的 起 因 是 决策 边界 过 分 适合 。 支 持 向 量 是 整个 训练 点 集 的 全 局 代表 ， 
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通常 只 是 它们 中 的 极 小 部 分 ， 几 乎 不 具 适 合 性 。 因 此 过 度 拟 合 不 太 可 能 发 生 。 

计算 复杂 度 又 如 何 呢 ? 这 仍然 是 个 和 问题。 假设 转换 的 空间 是 高 维 空间 ， 因 此 转换 的 支持 
向 量 和 测试 实例 由 许多 分 量 组 成 。 根 据 上 面 的 等 式 ， 每 次 对 一 个 实例 分 类 时 ， 必 须 计算 它 和 
所 有 支持 向 量 的 标量 积 。 在 经 非 线 性 映射 所 得 到 的 高 维 空间 上 ， 这 是 相当 耗费 的 。 要 得 到 标 
量 积 ， 涉 及 到 对 每 个 属性 进行 乘积 运算 和 求 和 运算 ， 并 且 新 空间 的 属性 数目 可 能 是 庞大 的 。 
问题 不 仅仅 发 生 在 分 类 过 程 中 ， 在 训练 过 程 中 也 存在 这 个 问题 ， 因 为 优化 算法 必须 非常 频繁 
地 进行 同样 的 标量 积 计算 。 

幸运 的 是 ， 可 以 在 进行 非 线性 映射 之 前 ， 对 原始 属性 集 的 标量 积 进行 计算 。 上 述 等 式 的 


| 一 个 高 维 表达 式 便 简化 为 


x=b+ J a; y,(ai)-a)" 


这 里 n 是 所 选 的 转换 系数 (我 们 先前 的 例子 中 用 的 是 3)。 如 果 将 (a(i) - a)" 项 展开 ， 将 发 现 它 
包含 了 当 测试 和 训练 向 量 按 普 盖 所 有 可 能 的 "次 乘积 转换 ， 然 后 取 标量 积 作为 结果 ， 所 涉及 的 


; 所 有 高 维 项 。( 如 果 做 计算 ， 你 会 注意 到 一 些 常量 因子 ， 即 二 项 式 系数 被 引入 。 但 这 不 要 紧 ， 
. 我 们 关注 的 是 空间 维度 数 ， 常 量 只 是 关系 到 数 轴 刻 度 比例 。) 由 于 这 个 在 数学 上 的 等 效 关系 ， 
. 标量 积 可 以 在 原先 的 低 维 数 空间 上 进行 计算 ， 因 此 ， 问 题 便 解 决 了 。 在 实现 时 ， 可 选用 受 限 
,的 二 次 优化 软件 包 ， 将 每 次 求 a(D) . a 的 值 替换 为 求 (a(D) . a)" 的 值 。 就 是 这 么 简单 ， 因 为 在 优 
. 化 和 分 类 算法 中 ， 这 些 向 量 都 只 是 以 标量 积 形式 参与 。 训 练 集 向 量 ， 包 括 支持 向 量 ， 以 及 测 
+ 试 实例 在 计算 过 程 中 都 保留 在 原来 的 低 维 空间 里 。 


函数 (x . y)”"”， 计 算 向 量 x+ 和 向 量 y 的 标量 积 并 将 结果 上 升 为 4 次 逢 ， 称 为 多 项 式 核 
(polynomial kernel) 函数 。 选 择 n 的 好 方法 是 从 1 (一 个 线性 模型 ) 开始 ， 然 后 递增 ， 直 到 估 
计 误 差 不 再 有 改进 为 止 。 通 常 ， 相 当 小 的 数目 就 足够 了 。 

也 可 以 换 用 其 他 的 核 函数 来 实现 不 同 的 非 线 性 映射 。 两 个 经 常 建 议 使 用 的 是 径 向 基 核 函 
数 (radial basis function (RBF) kernel) 和 S 形 核 函 数 (sigmoid kernel )。 哪 一 种 能 产生 最 好 
的 效果 取决 于 应 用 ， 但 在 实践 中 它们 的 差别 并 不 很 大 。 有 趣 的 是 使 用 径 向 基 核 函数 的 支持 向 
量 机 只 是 神经 网 络 (neural network) 的 一 种 ， 称 为 径 向 基 隙 数 网 络 (我 们 将 在 下 面 讨论 )， 而 
使 用 S 形 核 函 数 的 支持 向 量 机 实现 的 是 另 一 种 神经 网 络 ， 即 带 一 个 隐藏 层 的 多 层 感 知 器 〈 也 将 
在 下 面 讨论 )。 

在 整 节 中 ， 我 们 都 假设 训练 数据 是 可 以 线性 分 隔 的 ， 在 实例 空间 或 在 经 过 非 线 性 映射 的 
新 空间 。 结 论 是 支持 向 量 机 可 以 推广 到 训练 数据 不 可 分 隔 的 情形 。 最 终 的 实现 要 给 上 述 系数 
4% 设 定 一 个 上 限 。 不 幸 的 是 ， 这 个 参数 需要 用 户 自 己 选择 ， 而 最 好 的 设置 只 有 从 实验 中 得 出 。 
并 且 在 极 大 多 数 情 况 下 ， 不 可 能 事先 判定 一 个 数据 集 是 否 可 被 线性 分 隔 。 

最 后 我 们 必须 提醒 的 是 ， 和 其 他 的 学 习 方法 (如 决策 树 ) 相 比 较 ， 即 使 是 最 快 的 支持 向 
量 机 训练 算法 应 用 在 非 线性 情形 下 也 是 较 慢 的 。 但 另 一 方面 ， 由 于 它们 能 得 到 微妙 复杂 的 决 
策 边界 ， 因 此 通常 能 产生 精确 度 很 高 的 分 类 器 。 


6.3.3 支持 向 量 回 归 


最 大 边际 超 平面 的 概念 只 能 应 用 于 分 类 。 但 是 ， 支 持 向 量 机 算法 已 发 展 成 能 适用 于 数值 
预测 ， 它 共享 了 许多 在 分 类 应 用 中 所 遇 到 的 特性 :产生 一 个 通常 只 是 由 少许 支持 向 量 来 表示 
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的 模型 ， 并 可 以 利用 核 函 数 将 其 应 用 于 非 线性 问题 中 。 如 介绍 普通 的 支持 向 量 机 -一样 ， 我 们 
只 讨论 它 所 引入 的 概念 ， 而 不 具体 描述 算法 实际 是 如 何 工作 的 。 

和 4.6 节 中 讨论 的 线性 回归 一 样 ， 基 本 理念 是 通过 使 预测 误差 最 小 化 来 寻找 一 个 函数 能 较 
好 地 接近 训练 数据 点 。 主 要 的 差别 在 于 所 有 在 用 户 指定 参数 e 之 内 的 偏差 都 被 简单 地 丢弃 了 。 
在 进行 误差 最 小 化 时 ， 由 于 同时 试图 使 函数 平面 度 (flatness) 最 大 化 ， 从 而 过 度 拟 合 的 风险 
降低 了 。 另 一 个 差别 在 于 被 最 小 化 的 通常 是 预测 值 的 绝对 误差 ， 用 以 替换 线性 回归 中 所 用 的 
误差 平方 。( 但 是 也 有 使 用 误差 平方 的 算法 版 本 。) 

用 户 指定 参数 e 是 在 回归 函数 周围 定义 一 个 管道 ， 在 这 个 管道 内 的 误差 将 被 忽略 : 对 线性 
支持 向 量 回归 来 说 ， 这 个 管道 是 个 圆柱 体 。 如 果 所 有 的 训练 点 都 在 宽度 为 2 的 管道 内 ， 算 法 
输出 -个 位 于 最 平 的 管道 中 央 的 函数 ， 这 个 管道 包含 所 有 训练 点 。 这 个 情况 下 察觉 到 的 总 误 
差 为 0。 图 6-9a 展 示 了 一 个 含有 1 个 属性 、1 个 数值 型 类 和 8 个 实例 的 回归 问题 。 在 这 个 例子 中 ， 
E 设 为 !， 因 此 回归 函数 周围 管道 宽度 (图 中 由 虚线 画 出 ) 为 2。 图 6-9b 展 示 的 是 当 设 为 2 时 的 
学 习 结 果 。 正 如 你 所 见 ， 较 宽 的 管道 可 能 产生 一 个 较 平 的 函数 。 

的 值 控 制 了 函数 与 训练 集 数据 的 拟 合 程度 。 这 个 值 太 大 将 产生 -个 毫 无 意义 的 顶 测 器 。 
极端 的 情形 是 ， 当 2e 超 出 训练 数据 的 类 的 数值 范围 时 ， 回 归 线 是 水 平 的 ， 并 且 算 法 的 预测 结 
果 总 是 类 的 平均 值 。 另 一 方面 ，e 值 太 小 ， 也 许 不 存在 能 包含 所 有 训练 数据 的 管道 。 在 这 种 情 
况 下 ， 部 分 训练 数据 点 将 出 现 非 零 误差 , 这 里 预测 误差 和 管道 的 平面 度 之 间 就 存在 一 个 折 中 问 
题 。 在 图 6-9c 中 ，e 设 为 0.5， 而 没有 一 个 宽度 为 1 的 管道 可 以 包含 所 有 的 数据 。 

在 线性 情况 下 ， 支 持 向 量 回归 函数 可 以 写成 

x=b+ a, a(i)-a 
AE Hee 
如 同 分 类 问题 一 样 ， 在 处 理 非 线性 问题 时 ， 标 量 积 可 以 用 核 函 数 来 代替 。 支 持 向 量 是 所 有 那 
些 不 是 确实 落 和 管道 内 的 点 ， 即 那些 在 管道 外 及 管道 边缘 上 的 点 。 如 分 类 问题 一 样 ， 所 有 其 
他 点 的 系数 为 0， 都 可 以 从 训练 集中 去 除 而 不 改变 学 习 结果 。 和 分 类 问题 对 比 ， 这 里 w 可 能 是 
负 的 。 

正如 我 们 先前 提 到 的 ， 在 使 误差 最 小 化 的 同时 ， 算 法 还 要 试图 使 回归 函数 平面 度 最 大 化 。 
在 图 6-9a 和 图 6-9b 中 ， 存 在 包含 所 有 训练 数据 点 的 管道 ， 而 算法 只 是 输出 其 中 最 平 的 管道 。 但 
在 图 6-9c 中 ， 不 存在 误差 为 0 的 管道 ， 在 预测 误差 和 管道 平面 度 之 间 要 进行 权衡 。 这 个 权衡 是 
通过 对 系数 上 的 绝对 值 设 定 上 限 值 C 来 控制 。 这 个 上 限 值 约 束 了 支持 向 量 对 回归 国 数 形状 的 影 
响 ， 它 是 除了 e 外 ， 必 须 由 用 户 设 定 的 另 一 个 参数 。C 值 越 大 ， 函 数 越 是 与 数据 拟 合 。 在 e=0 
的 情况 下 ， 算 法 只 是 简单 地 实行 在 系数 受 限 条 件 下 的 最 小 绝对 误差 回归 ， 所 有 的 训练 数据 都 
成 为 支持 向 量 。 相 反 ， 如 果 E 足 够 大 而 能 使 管道 包含 所 有 的 训练 数据 ， 误 差 为 0， 不 需要 进行 
权衡 ， 算 法 输出 的 是 包含 数据 且 与 C 值 无 关 的 最 平 的 管道 。 


6.3.4 核 感知 器 
在 4.6 节 中 ， 我 们 介绍 了 用 于 学 习 线性 分 类 器 的 感知 器 (perceptron) 算法 。 核 函数 的 奥妙 


也 可 以 应 用 于 这 个 算法 ,使 之 升级 用 以 学 习 非 线性 决策 边界 。 为 了 能 看 到 这 一 点 ， 我 们 先 来 
复习 一 下 线性 的 情况 。 感 知 器 算法 让 训练 集 实例 一 个 接 一 个 进行 重复 迭代 ， 每 当 其 中 的 一 个 


实例 按 目 前 所 学 习 的 权 向 量 进行 分 类 出 现 错误 时 ， 便 要 更 新 权 向 量 。 更 新 只 是 简单 地 在 权 向 
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c) E =0.5 
图 6-9 支持 向 量 回归 


| 量 上 加 上 或 减 去 这 个 实例 的 属性 值 。 这 意味 着 最 终 的 权 向 量 正 是 被 错误 分 类 的 实例 的 总 和 。 
| 感知 器 做 预测 是 基于 


; ya 
| 大 于 还 是 小 于 0， 其 中 w,; 是 第 ;个 属性 的 权 值 a 是 我 们 要 进行 分 类 的 实例 所 对 应 的 属性 值 。 
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我 们 也 可 以 用 

2 2O00 U) a; 

这 里 ，a 0) 是 第 /个 被 错误 分 类 的 训练 实例 ，a G) 是 它 的 第 个 属性 值 ，y0) 是 它 的 类 值 (不 ， 

是 + 1 就 是 - 1)。 在 实现 时 ， 我 们 不 再 需要 清楚 地 记录 权 向 量 ， 只 需要 保存 当前 被 错误 分 类 的 
实例 ， 然 后 利用 上 面 的 表达 式 来 预测 。 

看 来 似乎 没有 什么 可 取 之 处 ， 但 事实 上 ， 这 个 算法 相当 慢 ， 因 为 每 做 一 次 预测 需要 重复 

处 理 所 有 的 错误 分 类 实例 。 然 而 ， 再 仔细 地 看 一 下 这 个 公式 ， 发 现 它 可 以 用 标量 积 来 表示 。 

首先 交换 一 下 总 和 符号 得 到 | 


D ODÈ aa 
第 二 个 总 和 正 是 两 个 实例 之 间 的 标量 积 ， 可 以 写成 221 
a’ 2 


关键 在 此 ! 类 似 于 支持 向 量 机 的 表达 式 使 我 们 能 利用 核 函 数 。 确 实 ， 在 这 里 我 们 可 以 采取 完 ， 
全 相同 的 妙计 ， 利 用 核 函 数 来 替换 标量 积 。 将 这 个 函数 表示 为 K(…) ， 得 到 
> YUDK(a'(7),a) 


这 样 ， 感 知 器 算法 只 要 简单 地 记录 下 在 训练 过 程 中 被 错误 分 类 的 训练 实例 ， 用 上 面 的 表达 式 
来 做 预测 ， 便 能 学 习 非 线性 分 类 器 。 

如 果 利 用 核 函 数 ， 在 高 维 空间 存 在 一 个 分 隔 超 平面 ， 利 用 这 个 算法 会 得 到 一 个 。 但 是 ， 
所 得 到 的 不 是 支持 向 量 机 分 类 器 所 能 得 到 的 最 大 边际 超 平 面 。 这 意味 着 它 的 分 类 性 能 通常 比 ， 
较 差 。 从 好 的 方面 看 ， 这 个 算法 容易 实现 并 且 支 持 递增 学 习 (incremental learning). | 

这 个 分 类 器 称 为 核 感知 器 (kernel perceptron)。 结 论 是 所 有 学 习 线 性 模型 的 算法 都 可 以 通 
过 应 用 核 函 数 的 奥妙 之 处 进行 升级 。 例 如 ，logistic 回归 可 以 转变 为 核 logistic 回归 。 同 样 适用 
于 回归 问题 : 线性 回归 也 可 以 利用 核 函 数 来 升级 。 这 些 高 级 的 线性 回归 和 logistic 回 归 方 法 的 ， 
缺点 (如果 它 们 是 采取 直接 应 用 ) 在 于 解决 方案 不 是 “稀疏 的 ”每 个 训练 实例 对 最 终 作为 解 
决 方案 的 向 量 都 有 和 贡献。 在 支持 向 量 机 和 核 感知 器 中 ， 只 是 部 分 训练 实例 影响 最 终 的 问题 解 
决 方案 、 这 点 在 计算 效率 上 会 造成 很 大 的 差别 。 

感知 器 算法 所 得 到 的 作为 解决 方案 的 向 量 在 很 大 程度 上 依赖 于 实例 的 顺序 。 一 种 可 以 使 
算法 比较 稳定 的 方法 是 使 用 在 训练 过 程 中 所 经 历 到 的 所 有 权 向 量 ， 不 单单 是 最 终 的 那个 , 让 ， 
它们 对 预测 进行 投票 。 每 个 权 向 量 贡献 一 定数 目的 票数 。 直 观 地 来 看 ， 一 个 权 向 量 的 “正确 ， 
性 ”可 以 粗略 地 用 它 自 形成 后 对 随后 的 训练 实例 进行 正确 分 类 而 无 需 更 新 的 逐个 试探 数目 来 ， 
衡量 ， 可 以 将 衡量 所 得 的 数目 赋予 这 个 权 向 量 作为 它 要 贡献 的 票数 ， 这 个 算法 便 是 投票 感知 
器 (voted perceptron)， 它 的 性 能 与 支持 向 量 机 相差 无 几 。( 注 意 ， 如 前 所 述 ， 投 票 感知 器 中 ， 
的 不 同 权 向 量 也 不 需要 记录 ， 核 函数 在 这 里 也 同样 适用 。) 


6.3.5 多 层 感 知 器 


为 建立 一 个 基于 感知 器 的 非 线性 分 类 器 ， 使 用 核 国 数 并 不 是 唯一 的 方法 。 实 际 上 ， 核 函 
数 是 近期 才 开发 出 来 的 机 器 学 习 方法 。 之 前 ， 神 经 网 络 对 于 非 线性 分 类 问题 采用 另 一 种 不 同 
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的 方法 : 它们 将 许多 简单 的 类 似 感知 器 的 模型 按 层次 结构 连接 起 来 。 这 样 就 能 表现 非 线 性 决 
策 边 界 。 

在 4.6 革 中 曾 解 释 过 感知 器 代表 一 个 存在 于 实例 空间 的 超 平面 。 我 们 曾 提 到 它 有 时 被 描述 
为 人 造 “ 神 经 元 ”"。 当 然 ， 人 和 动物 的 大 脑 能 成 功 地 完成 非常 复杂 的 分 类 问题 ， 例 如 ， 图 像 识 
别 。 单 靠 大 脑 中 单个 神经 元 的 功能 是 不 足以 完成 这 些 壮举 的 。 类 似 大 脑 的 结构 是 如 何 解决 问 
题 的 呢 ? 答案 在 于 大 脑 神 经 元 是 大 规模 地 相互 连接 的 ， 它 能 将 一 个 问题 分 解 为 可 以 在 神经 元 
这 一 层 来 解决 的 子 问题 。 这 个 观察 结果 启发 了 人 工 神经 网 络 的 发 展 。 

考虑 图 6-10 中 一 个 简单 的 数据 集 。 图 6-10a 展 示 了 一 个 二 维 实例 空间 ， 含 有 4 个 实例 ， 实 例 
的 类 为 0 和 和 1， 分 别 用 和 白 的 和 黑 的 圆 点 来 表示 。 无 论 你 怎样 在 这 个 空间 上 画 直线 ， 都 无 法 找到 
“条 直线 能 将 黑白 圆 点 分 隔 开 来 。 换 名 话说 ， 这 个 问题 不 是 能 用 线性 分 隔 的 ， 简 单 的 感知 器 
算法 无 法 生成 分 隔 超 平面 ( 在 二 维 实例 空间 ， 超 平面 只 能 是 一 条 直线 )。 图 6-10b、6-10c 的 情 
形 就 不 同 了 ， 这 两 种 情况 都 是 可 以 线性 分 隔 的 。 图 6-10d 的 情况 也 是 如 此 ， 图 中 展示 了 在 一 维 
实例 空间 中 的 两 个 实例 点 (在 -- 维 实例 空间 ， 超 平面 退缩 成 - -个 分 隔 点 )。 

如 果 对 命题 逻辑 熟悉 的 话 ， 你 也 许 会 注意 到 图 6-10 中 的 四 种 情况 正好 对 应 四 种 逻辑 关系 。 
图 6-10a 代表 逻辑 异 或 (XOR)， 当 且 仅 当 有 一 个 属性 值 为 时， 类 值 为 1。 图 6-10b 代 表 逻 辑 与 
(AND) , 当 且 仅 当 两 个 属性 值 都 为 1 时 ， 类 值 为 1。 图 6-10c 代 表 逻 辑 或 (OR) , 当 且 仅 当 两 个 
属性 值 都 为 0 时 ， 类 值 为 0。 图 6-10d 代 表 逻 辑 非 (NOT )， 当 且 仅 当 属性 值 为 1 时 ， 类 值 为 0。 
由 于 后 面 汉 种 情况 都 是 可 以 线性 分 隔 的 ， 因 此 感知 器 可 以 代表 逻辑 与 、 逻 辑 或 及 逻辑 非 。 图 
6-10f~h 分 别 展示 了 与 数据 集 相 对 应 的 感知 器 。 可 是 简单 的 感知 器 不 能 代表 逻辑 异 或 (XOR )， 
因 它 不 能 被 线性 分 隔 。 解 决 这 个 问题 的 分 类 器 仅 用 一 个 感知 器 是 不 够 的 ， 需 要 几 个 感知 器 。 

图 6-10e 展 示 了 一 个 由 三 个 感知 器 ， 或 称 单元 〈(unit) ， 标 记 为 A、B 和 C 所 组 成 的 网 络 。 前 
面 两 个 与 网 络 输入 层 (input layer) 相连 接 ， 输 入 层 代表 数据 的 属性 。 就 像 在 简单 的 感知 器 中 
一 样 ， 输 入 层 还 附加 一 个 称 为 偏差 (bias ) 的 常量 输入 。 然 而 ， 第 三 个 单元 却 和 输入 层 没 有 任 
何 连接 。 它 的 输入 是 由 单元 A、B 的 输出 ( 非 0 即 1) 和 另 一 个 常量 偏差 单元 所 组 成 。 这 三 个 单 
元 构成 了 多 层 感知 器 的 隐蔽 层 (hidden layer)。 称 为 “隐藏 ”是 因为 单元 与 环境 没有 直接 的 连 
接 。 正 是 这 一 层 让 系统 代表 异 或 (XOR) 功 能 。 可 以 用 所 有 4 种 可 能 的 输入 信和 号 组 合 来 进行 核实 。 
例如 ， 如 果 属 性 ai, 值 为 1，a: 值 也 为 1， 那 么 单元 A 将 输出 1 (因为 1x1 + 1x1- 05x1>0), 
单元 B 将 输出 0 (因为 -1xl1+(-UDxl+l5xl<0) ,单元 C 将 输出 0 (因为 1 x1+1x0+ 
(一 1.5)x 1 < 0)。 这 是 正确 的 答案 。 再 仔细 检查 一 下 这 三 个 单元 的 功能 发 现 ， 第 --- 个 代表 或 ， 
第 二 个 代表 非 与 (NAND) (逻辑 非 NOT 和 人 逻辑 与 AND 组 合 在 一 起 )， 第 三 个 是 与 。 组 合 在 一 
起 代表 了 (a,ORa,) AND (a, NAND a,)， 这 正 是 异 或 的 精确 定义 。 

正如 这 个 例子 所 展示 的 ， 命 题 计算 的 任何 表达 式 都 可 以 转化 为 一 个 多 层 感知 器 ， 因 为 逻 
辑 与 、 逻 辑 或 和 逻辑 非 这 三 种 连接 关系 就 已 足够 用 了 ， 并 且 我 们 也 已 经 看 到 了 感知 器 是 如 何 
来 代表 每 种 关系 的 。 个 体 单元 可 以 连接 在 一 起 来 表示 任意 复杂 的 表达 式 。 因此 多 层 感知 器 也 
县 备 相同 的 表达 能 力 ， 艾 如 说 ， 与 决策 树 相 比 。 实 际 上 ， 一 个 两 层 的 感知 器 (不 算 输入 层 ) 
就 足够 了 。 这 时 . 隐蔽 层 的 每 个 单元 对 应 不 同 的 逻辑 与 ， 不 同 是 因为 假设 它 可 能 在 做 逻辑 与 
之 前 ， 部 分 输入 要 进行 逻辑 非 操作 ; 然后 在 输出 层 进行 逻辑 或 操作 ， 它 是 由 单个 单元 来 表示 
的 。 换 句 话 说， 隐藏 层 的 每 个 单元 所 担当 的 角色 就 如 同 叶 节点 在 决策 树 中 ， 或 是 单个 规则 在 
决策 规则 集中 所 担当 的 角色 。 
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图 6-10 数据 集 样 例 及 其 对 应 的 感知 器 
重要 的 问题 是 怎样 来 学 习 多 层 感 知 器 。 这 个 问题 有 两 个 方面 : 一 方面 是 要 学 习 网 络 结 
构 ， 另 一 方面 是 要 学 习 连 接 权 值 。 对 于 一 个 给 定 的 网 络 结构 ， 有 一 种 相当 简单 的 算法 可 用 
来 决定 权 值 。 这 个 算法 称 为 反 向 传播 (backpropagation) 法 ， 将 在 下 节 中 讨论 。 虽 然 现 有 
许多 试图 识别 网 络 结构 的 算法 ， 但 这 方面 的 问题 通常 是 通过 实践 来 解决 的 ， 也 许 需 要 结合 
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- 些 专 家 知识 。 有 了 时 可 以 将 网 络 分 隔 成 不 同 的 模块 ， 代 表 不 同 的 子 任务 (例如 ， 在 图 像 识 
别 问题 中 、 辨 别 一 个 物体 不 同 的 组 成 部 分 )， 这 开创 了 一 种 将 领域 知识 与 学 习 过 程 结合 起 来 
的 方法 。 通 常 层 隐藏 层 便 是 所 需 的 全 部 ， 而 隐蔽 层 适 合 的 单元 数目 则 是 通过 估计 正确 率 
最 大 化 来 决定 的 。 


6.3.6 反 向 传播 法 


假设 现 有 “ 些 数 据 ， 我 们 要 守 找 一 个 多 层 感 知 器 ， 它 是 潜在 分 类 问题 的 正确 预测 器 。 已 
知 固定 的 网 络 结构 ， 必 须要 决定 合适 的 网 络 连接 权 值 。 在 没有 隐 项 层 的 情况 下 ， 可 以 用 4.6 节 
中 的 感知 器 学 习 规则 来 找到 合适 的 值 。 但 是 现在 假设 有 隐蔽 层 。 要 是 知道 输出 单元 该 预测 什 
么 ， 就 能 根据 感知 器 规则 来 调整 连接 这 个 单元 的 权 值 。 可 是 连接 到 隐蔽 层 单元 的 正确 输出 结 
果 是 未 知 的， 因此 感知 器 规则 在 这 里 不 适用 。 

一 般 来 说 ， 解 决 办 法 是 根据 每 个 单元 对 最 终 预 测 的 贡献 调整 连接 隐蔽 单元 的 权 值 。 有 一 
种 称 为 梯度 下 降 法 (gradient descent) 的 标准 数学 优化 算法 能 达到 此 目的 。 不 幸 的 是 ， 需 要 求 
导数 ， 而 简单 的 感知 器 使 用 阶梯 函数 来 将 加 了 权 的 输入 总 和 转换 为 0/1 预 测 ， 阶梯 函数 是 不 可 
微 的 。 因 此 必须 考虑 是 否 能 将 阶梯 国 数 替换 为 其 他 形式 的 函数 。 

图 6-11a 展 示 了 阶梯 函数 : 如 果 输入 小 于 0， 输 出 为 0， 否 则 输出 为 1。 我 们 需要 找 一 个 形 
状 类 似 ， 但 可 微 的 函数 。 通常 使 用 的 替代 函数 是 图 6-11b 所 展示 的 函数 。 在 神经 网 络 术 语 中 ， 
称 为 S 形 函数 并 定义 为 


(= 





1+e 

在 4.6 节 讨论 logistic 回归 中 使 用 对 数 变换 (logit transform) 时 ， 曾 过 到 过 S 形 函数 。 实 际 上 ， 
学 习 多 层 感 知 器 与 logistic 回归 是 密切 相关 的 ， 

为 了 要 应 用 梯度 下 降 程 序 ， 通 过 调整 权 值 使 误差 项 数 达 到 最 小 化 ， 也 必须 是 可 微分 的 。 
用 5.6 节 中 介绍 的 离散 的 0-1 损 失 国 数 来 衡量 错误 分 类 数目 ， 也 不 符合 这 个 标准 。 作 为 替代 ,在 
多 层 感知 器 训练 时 ， 一 般 是 将 网 络 输出 的 误差 平方 最 小 化 ， 并 在 本 质 上 把 它 看 作 是 对 类 概率 
的 估计 。( 其 他 损失 郧 数 也 可 以 用 。 例 如 ， 如 果 用 似 然 函 数 代替 误差 平方 ， 学 习 S 形 的 感知 器 
和 1logistic 回 归 是 一 样 的 。) 

我 们 采用 误差 平方 损失 函数 ， 因 它 的 应 用 最 为 广泛 。 对 单个 训练 实例 来 说 ， 它 是 


E= 50 - f) 


这 里 , Sf 是 从 输出 单元 得 到 的 网 络 预测 ，y 是 实例 的 类 标记 (这 里 假设 不 是 1 就 是 0)。 系 数 
1/2 只 是 为 了 方便 起 见 ， 当 开始 计算 导数 时 就 去 掉 。 

梯度 下 降 揭 示 了 将 被 最 小 化 的 函数 ， 这 里 是 误差 函数 的 导数 所 提供 的 信息 。 举 个 例子 ， 
假设 误差 函数 正好 是 x* +1， 如 图 6-12 所 示 。X 轴 代表 一 个 要 进行 优化 的 假设 参数 。x? +1 的 导 
数 是 2+。 重 要 的 是 ， 根 据 导 数 可 以 计算 出 函数 在 任意 点 的 斜率 。 如 果 导 数 是 负 的 ， 函 数 向 右 
下 方 倾斜 ;如 果 是 正 的 ， 则 向 左下 方 倾斜 ， 导 数 的 大 小 决定 了 倾斜 的 陡峭 度 。 梯 度 下 降 法 利 
用 这 些 信 息 来 调整 函数 的 参数 ， 它 是 一 个 选 代 优 化 的 过 程 。 它 将 导数 值 乘 以 一 个 称 为 学 习 率 
(learning rate) 的 小 常量 ， 然 后 将 计算 结果 从 目前 的 参数 值 中 减 去 。 代 入 新 的 参数 重复 这 个 过 
程 ， 以 此 类 推 、 直 到 达到 最 小 值 。 
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b) S ERK 
图 6-11 阶梯 对 照 S 形 





图 6-12 误差 函数 x? +1 的 梯度 下 降 
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回 到 上 述 例子 中 , 假设 学 习 率 设 定 为 0.1， 目 前 的 参数 值 xz 为 4。 导 数 便 是 它 的 两 倍 ， 就 是 8。 
乘 以 学 习 率 得 到 0.8， 再 将 其 从 4 中 减 去 ， 得 到 3.2， 这 便 是 新 的 参数 值 。 用 3.2 作 为 参数 值 再 重 
复 这 个 过 程 ， 得 到 2.56， 然 后 又 得 到 2.048， 等 等 。 图 6-12 中 的 小 又 显示 的 就 是 在 这 个 过 程 中 
所 产生 的 数值 。 一 旦 参数 值 变化 变 得 非常 小 ， 就 停止 这 个 过 程 。 在 此 例子 中 ， 这 个 情况 发 生 
在 当 参 数值 逼近 寺 0 时 ， 这 个 值 对 应 于 X 轴 上 的 位 置 正 是 假设 误差 函数 达到 最 小 值 的 位 置 。 

学 习 率 决定 了 改变 的 大 小 ， 因 此 决定 了 多 快 能 使 搜索 达到 收敛 。 如 果 这 个 值 太 大 ， 误 差 
男 数 又 有 几 个 最 小 值 ， 搜 索 也 许 会 越过 目标 ， 错 过 最 小 值 ， 或 者 出 现 大 幅 振 落 。 如 果 太 小 ， 
靠近 最 小 值 的 进程 可 能 会 很 慢 。 要 注意 的 是 ， 梯 度 下 降 法 只 能 找到 局 部 最 小 值 。 如 果 函 数 有 
几 个 最 小 值 ， 多 层 感 知 器 的 误差 函数 通常 有 多 个 最 小 值 ， 找 到 的 也 许 不 是 最 好 的 。 这 是 标准 
的 多 层 感知 器 与 其 他 方法 如 支持 向 量 机 相 比 的 一 个 最 明显 的 缺陷 。 

为 了 利用 梯度 下 降 法 来 寻找 多 层 感知 器 的 权 值 ， 误 差 平方 的 导数 必须 根据 每 个 参数 来 决 
定 ， 即 在 网 络 中 的 每 个 权 值 来 决定 。 先 来 看 一 下 不 带 隐 项 层 的 简单 感知 器 。 根 据 某 个 具体 的 
权 值 w 、 对 上述 误 差 函 数 求 导 ， 得 到 
$20 Fe TO 
这 里 f (x) 是 感知 器 的 输出 ，x 是 加 了 权 的 输入 总 和 。 

要 计算 等 式 右边 第 二 个 因子 ， 需 要 对 S 形 函数 求 导 。 得 到 的 是 可 以 用 函数 六 OHY RRK 
的 特别 简单 的 形式 : 

LO -Co foo) 


Wf’) 表示 这 个 导数 。 可 目的 是 要 对 w, 求 导 而 不 是 对 x 求 导 。 因 为 
x=} wa, 
PAF œ) hw, 求 导 是 


we) = f'wa, 


HX PGRARAMIRE BRS, A 


Ey FO) fa, 
dw, 


: 这 个 表达 式 给 出 了 改变 权 值 w; 计算 所 需 的 全 部 、 这 个 改变 是 由 于 某 个 具体 的 实例 向 量 a (如 前 
-所 述 ， 再 附加 一 个 偏差 1) 所 引起 的 。 对 每 个 训练 实例 重复 进行 这 样 的 计算 ， 然 后 把 改变 值 按 
县 体 的 mw 分 别 相 加 ， 乘 以 学 习 率 ， 再 从 目前 的 w; 值 中 减 去 计算 结果 。 


到 现在 为 止 都 还 不 错 。 但 是 所 有 这 些 都 是 在 假设 没有 隐藏 层 的 前 提 下 。 带 有 隐藏 层 就 稍 
许 难 对 付 一 些 。 假 设 f (x, ) 是 第 i 个 隐藏 单元 的 输出 , wj 是 从 输入 j 到 第 i 个 隐藏 单元 中 间 连 接 的 
BIE, w 是 第 i 个 隐蔽 单元 和 输出 单元 之 间 的 权 值 。 图 6-13 描 绘 了 这 个 情形 。 和 前 面 一 样 ， 


.下 9) 是 输出 层 的 单个 输出 单元 。 权 值 w, 的 更 新 规则 和 上 述 方法 基本 相同 ， 除 了 用 第 ;个 隐藏 音 
元 的 输出 替换 了 ai : 
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图 6-13 带 一 层 隐 藏 层 的 多 层 感知 器 


d (y— FANDO) 
du, 
然而 ， 要 更 新 权 值 w; ， 需 要 进行 相应 的 求 导 计算 。 应 用 链 规则 得 出 
dE dE dx 


; dx 
dw, Sar dw, OO FOP Ow, 


前 两 个 因子 与 先前 的 公式 是 一 样 的 。 要 计算 第 三 个 因子 ， 需 要 进一步 求 导 。 因 为 


x= Dw f(,) 
dx =w. df(x,) 


i 
dw, dw, 





mH., 
do) _ 


dw; 
这 意味 着 问题 解决 了。 将 所 有 这 些 归纳 在 一 起 ， 得 到 误差 函数 对 权 值 w, 求 导 的 公式 : 


Ey f(xy FW fa 
dw, 


Pa) Z= faa 
dw; 


同 前 面 -- 样 ， 对 每 个 训练 实例 进行 这 样 的 计算 ， 然 后 把 改变 值 按 有 具体 的 w 分 别 相 加 ， 乘 以 学 : 
习 率 ， 再 从 目前 w, 值 中 减 去 计算 结果 。 
这 个 求 导 方法 是 应 用 于 含 一 层 隐藏 层 的 感知 器 。 如 果 存 在 两 层 隐 藏 层 ， 可 以 再 次 应 用 相 ， 
同 的 策略 来 更 新 第 一 隐蔽 层 的 输入 连接 权 值 错误 从 输出 单元 通过 第 一 隐藏 层 传播 到 第 -- 层 。， 
由 于 这 样 种 错误 传播 机 构 ， 这 种 普通 的 梯度 下 降 策略 称 为 反 向 传播 法 。 
默认 假设 是 网 络 输 出 层 只 有 一 个 单元 ， 适 合 于 二 类 问题 。 对 含有 两 个 以 上 类 的 情况 ， 可 ， 
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: 以 将 每 个 类 和 其 他 的 类 区 分 开 来 进行 -个 个 单独 的 网 络 学 习 。 也 可 以 通过 为 每 个 类 各 建立 一 
个 输出 单元 ， 将 隐藏 层 的 每 个 单元 和 每 个 输出 单元 相连 接 ， 从 而 能 在 单个 网 络 上 获得 一 个 更 
为 紧凑 的 分 类 器 。 某 个 具体 训练 实例 的 误差 平方 是 所 有 输出 单元 的 误差 平方 的 总 和 。 相 同 的 
,技术 亦 可 应 用 于 同时 预测 几 个 目标 或 是 儿 个 属性 值 ， 它 是 通过 为 每 个 (目标 或 属性 值 ) 各 建 
立 一 个 输出 单元 。 从 直觉 上 来 看 ， 如 果 潜 在 的 各 项 学 习 任务 之 间 存 在 联系 的 话 ， 这 种 方法 可 
_ 能 要 比 给 每 个 类 各 建 一 个 分 类 器 的 预测 正确 率 高 。 


我 们 已 经 假设 权 值 只 是 在 所 有 训练 实例 都 传送 到 网 络 后 才 进 行 更 新 ， 所 有 相应 的 权 值 改 


| 变 是 累积 起 来 的 。 这 是 批 处 理学 习 (batch learning), 因为 所 有 的 训练 数据 是 在 一 起 处 理 的 。 
但 是 也 可 以 用 完全 同样 的 公式 ， 在 对 每 一 个 训练 实例 进行 处 理 后 即 更 新 权 值 。 这 叫 随机 反 向 
“传播 (stochastic backpropagation)。 由 于 每 次 更 新 后 ， 总 体 误 差 率 不 … 定 下 降 ， 因 此 不 能 保证 
它 能 收敛 于 最 小 值 处 。 它 可 用 于 在 线 学 习 ， 这 种 情形 下 新 的 数据 以 连续 的 数据 流 形式 传送 进 
来 ， 对 每 个 训练 实例 只 处 理 一 次 。 在 这 两 种 反 向 传播 方法 中 ， 先 将 属性 标准 化 使 之 平均 值 为 0、 
_ 标准 差 为 1， 通 常 是 很 有 帮助 的 。 在 开始 学 习 之 前 ， 每 个 权 值 被 初始 化 为 基于 平均 值 为 0 的 正 
_ 态 分 布 上 的 、 一 个 很 小 的 随机 选择 值 ,。 


同 其 他 的 学 习 方 案 一 样 ， 用 反 向 传播 法 训练 出 的 多 层 感知 器 可 能 会 过 度 拟 合 ， 特 别 是 当 


用 于 代表 潜在 学 习 问题 结构 的 网 络 远 大 于 实际 所 需 时 。 人 们 提出 许多 修改 方案 用 以 避免 这 个 
_ 问题。 一 个 非常 简单 的 方法 称 为 提前 停止 (early stopping)， 操 作 起 来 就 像 在 规则 学 习 器 中 的 基 
. 于 减少 -误差 修剪 法 : 用 一 个 旁 置 的 数据 集 来 决定 何 时 停止 反 向 传播 算法 的 迭代 过 程 。 测 量 在 
; 旁 署 数据 集 上 的 错误 ， 一 旦 错误 开始 增加 即 停止 ， 因 为 这 表明 与 训练 实例 过 度 拟 合 了 。 另 一 
种 方法 称 为 权 衰减 (weight decay )， 即 在 误差 函数 上 加 一 项 惩罚 项 ， 它 由 网 络 中 所 有 权 值 总 
和 的 平方 组 成 。 它 试图 通过 惩罚 那些 权 值 较 大 却 不 能 相应 地 为 降低 误差 作 贡献 的 权 值 ， 来 限 


制 网 络 预测 中 无 关连 接 的 影响 。 
虽然 标准 梯度 下 降 法 是 用 于 学 习 多 层 感知 器 权 值 的 最 简单 技术 ， 但 并 不 意味 着 是 最 有 效 


,的 方法 。 在 实践 中 ， 这 个 方法 相当 慢 。 经常 能 带 来 性 能 改善 的 一 个 诀窍 是 在 更 新 权 值 时 包含 
一 个 动量 (momentum) 项 : 在 新 更 改 的 权 值 上 再 加 上 前 次 迭代 更 新 量 的 一 小 部 分 数值 。 这 使 
方向 改变 上 不 那么 突然 ,平滑 了 搜寻 过 程 。 更 复杂 的 方法 是 利用 误差 函数 的 二 次 求 导 信 息 ， 
| 这 样 能 更 快 地 达到 收敛 。 然 而 ， 和 其 他 的 分 类 器 学 习 方 案 相 比较 ， 即 使 采用 这 样 的 算法 还 是 
- 很 慢 。 


带 有 隐蔽 层 的 多 层 感知 器 的 一 个 严重 缺陷 是 在 本 质 上 难于 理解 。 有 几 种 技术 试图 从 训练 


. 好 的 神经 网 络 中 提炼 规则 。 但 是 ， 与 从 数据 中 直接 导出 规则 集 的 标准 规则 学 习 器 相 比 是 否 有 
' 优势 并 不 很 清楚 ， 特 别 是 首先 考虑 到 标准 规则 学 习 法 一 般 比 学 习 一 个 多 层 感知 器 要 快 得 多 。 


虽然 多 层 感知 器 是 神经 网 络 中 最 为 著名 的 ， 但 还 有 很 多 其 他 提议 。 多 层 感 知 器 是 属于 一 


. 种 称 为 前 馈 网 络 (feedforward networks ) 的 网 络 类 型 ， 因 为 它们 不 包含 任何 的 环 ， 网 络 的 输 
出 仅仅 依赖 于 当前 的 输入 实例 。 循 环 (recurrent) 神经 网 络 就 包含 环 。 由 先前 输入 得 到 的 计算 
. 结果 被 反馈 到 网 络 中 ， 使 网 络 具有 类 似 记忆 的 能 力 。 


637 径 向 基 画 数 网 络 


另 一 种 常用 的 前 馈 网 络 是 径 向 基 函 数 (RBF) 网 络 。 不 算 输入 层 ， 它 共有 两 层 ， 与 多 层 


感知 器 的 不 同 之 处 在 于 隐蔽 单元 执行 计算 。 每 个 隐蔽 单元 在 本 质 上 代表 输入 空间 某 个 特定 的 
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点 ， 而 对 于 一 个 给 定 实例 ， 隐 项 单元 的 输出 或 称 激 活 (activation) 是 由 它 的 点 和 这 个 实例 ,| 
即 另 外 .个 点 之 间 的 距离 决定 的 。 从 直觉 上 来 看 ， 这 两 点 越 是 接近 ， 激 活力 越 强 。 这 是 通过 ， 
非 线 性 转换 函数 将 距离 转换 为 相似 度 来 实现 的 。 钟 形 的 高 斯 激活 图 数 (activation function) | 
就 是 为 达 这 个 目标 的 一 种 常用 函数 ， 每 个 隐 项 单元 的 高 斯 激活 函数 的 宽度 可 能 是 不 同 的 。 Be 
TCR A a] He PAB 因为 在 实例 空间 的 各 点 通过 一 个 给 定 的 隐蔽 单元 对 其 产生 相同 的 激 
话 ， 形 成 一 个 超 球 面 或 椭圆 体 (在 多 层 感知 器 中 ， 就 是 超 平 面 )。 

RBF 网 络 的 输出 层 和 多 层 感知 器 的 输出 层 是 相同 的 : 它 是 隐蔽 层 输出 的 线性 组 合 ， a 
类 问题 中 ， 并 且 使 用 S 形 函数 进行 传输 。 

这 样 -- 种 网 络 要 学 习 的 参数 是 : (a) 径 向 基 范 数 的 中 心 和 宽度 ，(b) 用 于 形成 隐蔽 层 答 ， 
出 的 线性 组 合 的 权 。 一 个 优 于 多 层 感 知 器 的 显著 优点 是 ， 第 一 -组 参数 的 决定 可 以 独立 于 第 二 
组 参数 而 仍然 能 产生 正确 的 分 类 器 。 : 

决定 第 一 组 参数 的 一 种 方法 是 使 用 聚 类 ， 而 不 去 看 训练 实例 的 类 标签 。 可 以 应 用 4.8 节 中 ， 


介绍 简单 的 4 均值 聚 闫 算法， Joby ay Sats Me ak EE TR UATE 从 直觉 上 说 ， 所 得 的 | 


径 向 大力 数 代表 了 实例 原型 。 然 后 可 以 来 学 习 第 二 组 参数 ， 第 一 组 参数 保持 固定 不 变 。 这 奉 
水 到 学 习 一 个 线性 模型 ， 用 我 们 讨论 过 的 技术 (例如 ， 线 性 或 logistic 回 归 )。 倘 若 隐 蔽 单元 数 
目 比 训练 实例 数目 小 得 多 ， 学 习 很 快 就 完成 了 。 

RBF 网 络 的 -个 缺点 是 由 于 在 距离 计算 中 所 有 属性 采用 相同 处 理 ， 从 而 赋予 每 个 属性 相 


同 的 权 值 。 因 此 和 多 层 感知 器 相 比 ， 它 不 能 有 效 地 处 理 无 关 的 属性 。 支 持 向 量 机 也 存在 同样 ， 


的 问题 。 实 际 上 ， 用 高 斯 核 函数 的 支持 向 量 机 (E “RBF” AR) 是 RBF 网 络 的 一 种 特例 ， 


即 基 函数 是 以 每 个 训练 实例 为 中 心 的 ,输出 是 通过 计算 最 大 边际 超 平面 来 得 到 线性 组 合 的。 


它 的 效果 是 只 有 部 分 径 向 基 畏 数 有 非 零 的 权 值 ， 那 些 代 表 支 持 向 量 的 径 向 基 国 数 。 


6.3.8 讨论 

支持 向 量 机 源 自 统计 学 习 理论 的 研究 (Vapnik，1999 年 ) ,对 它 的 探索 始 于 Burges (1998 
年 ) 提供 的 教学 指导 。Cortes 和 Vapnik (1995 年 ) 发 表 了 一 般 概括 性 的 描述 ， 包 括 将 其 推广 到 
数据 处 于 不 可 线性 分 隔 的 情形 。 本 书 介绍 了 标准 的 支持 向 量 回归 : Sch6lkopf 等 (1999 年 ) 提 
出 了 … 个 不 同 的 版 本 ， 用 一 个 参数 来 代替 两 个 参数 。Smola 和 Sch6lkopf (2004 年 ) 提供 了 支 
持 向 量 回归 法 的 深入 指导 。 

Freund 和 Schapire (1999 年 ) 提出 了 (投票) 核 感 知 器 。 Cristianini 和 Shawe-Taylor 
(2000 年 ) 对 支持 向 量 机 和 其 他 -… 些 基于 核 国 数 的 方法 ， 包 括 湾 在 于 支持 向 量 学 习 算法 中 的 优 
化 理论 都 做 了 介绍 。 我 们 只 是 掠 过 了 这 些 机 器 学 习 方 法 的 表层 ， 主 要 是 因为 下 层 隐 含 了 高 深 
的 数学 。 利 用 核 函 数 来 解决 非 线 性 问题 的 思路 被 应 用 在 许多 算法 中 ， 例 如 主 分 量 分 析 
(principal components analysis) (将 在 7.3 节 中 讨论 )。 核 函数 从 本 质 上 来 看 是 一 个 带 有 某 种 数 
学 特性 的 相似 函数 ， 任 何 一 种 结构 都 可 以 用 核 函 数 来 定义 ， 如 和 集合、 字符 串 、 树 以 及 概率 分 
布 。Shawe-Taylor 和 Cristianini (2004 年 ) 对 基于 核 消 数 的 学 习 做 了 详尽 的 介绍 。 

有 关 神 经 网 络 的 文献 很 多 ，Bishop (1995 年 ) 为 多 层 感知 器 和 RBF 网 络 都 提供 了 非常 好 
的 介绍 。 自 从 支持 向 量 机 的 出 现 ， 人 们 对 神经 网 络 的 兴趣 似乎 减少 了 ， 许 是 因为 支持 向 量 机 
需要 调整 的 参数 较 少 ， 而 能 达到 相同 (甚至 更 高 ) 的 正确 率 。 但 是 多 层 感知 器 有 它 的 优势 ， 
它们 能 学 习 忽 略 无 关 属 性 ， 利 用 均值 训练 出 的 RBF 网 络 可 以 被 看 作 是 寻找 非 线 性 分 类 器 的 一 
种 快速 草率 的 方法 。 
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6.4 基于 实例 的 学 习 


在 4.7 节 中 已 经 看 到 最 近邻 规则 是 怎样 被 应 用 于 基于 实例 学 习 的 基本 形式 中 的 。 这 个 简单 
的 方案 存在 … 些 实践 问题 。 第 --、 对 于 较 大 规模 的 训练 数据 集 ， 它 的 速度 往往 很 慢 ， 因 为 对 每 
个 测试 实例 来 说 ， 整 个 训练 集 都 要 被 搜寻 - - 遍 一 -除非 使 用 像 xD 树 或 球 树 (ball tree) 那样 更 
为 复杂 的 数据 结构 。 第 二 ， 碰 到 干扰 数据 ， 性 能 表现 较 差 。 因 为 测试 实例 的 类 是 由 单个 最 近邻 
的 实例 所 决定 的 ， 而 没有 使 用 任何 “ 取 平 均值 ”的 技术 来 帮助 消除 干扰 。 第 三 ， 当 不 同 的 属性 
对 分 类 结果 存在 不 同 程度 的 影响 时 ， 即 极端 的 情形 是 当 某 些 属性 对 分 类 来 说 完全 无 关 时 ， 性 能 
表现 较 差 。 因为 在 距离 公式 中 所 有 属性 的 贡献 是 均等 的 。 第 四 ， 它 不 能 实现 明确 的 推广 ， 尽 
管 在 3.8 计 中 提 到 (并 在 图 3-8 中 描述 ) 某 些 基 于 实例 的 学 习 系统 确实 能 实现 明确 的 推广 。 

6.4.1 减少 样本 集 数 量 

普通 的 最 近邻 规则 储存 了 许多 重复 样本 : 完全 没有 必要 保存 所 有 目前 所 见 过 的 实例 。-- 
个 简便 的 变 体 就 是 用 所 见 的 实例 对 答 个 实例 进行 分 类 ， 而 只 保存 被 错误 分 类 的 实例 。 这 里 用 
广 一 个 术语 样本 集 特 指 先 前 已 见 过 的 、 用 以 分 类 的 实例 集 。 球 齐 被 正确 分 类 的 实例 减少 样本 
集 的 数 最 .并 被 证 实 是 修 荔 样本 数据 库 的 一 个 有 效 方法 。 理 想 状况 是 只 为 实例 空间 上 的 每 个 
重要 区 域 储 存单 个 的 样本 。 但 是 在 学 习 过 程 早期 被 秋 弃 的 实例 ， 也 许 在 后 期 看 来 是 重要 的 实 
fA. 这 可 能 导 臻 预测 正确 率 的 降低 。 随 着 储存 实例 数量 的 增加 ， 模 型 的 正确 率 也 随 之 得 以 改 
善 ， 因 此 系统 错误 随 之 减少 . 

不 幸 的 是 ， 只 储存 被 错误 分 类 的 实例 ， 这 个 策略 在 磁 到 干扰 数据 时 不 能 正常 工作 。 干 扰 
实例 很 可 能 归 被 错误 分 类 ， 因 此 导致 所 储存 的 样本 集 是 在 累积 那些 最 无 用 的 实例 。 这 个 结论 
很 容易 通过 实验 观察 到 。 因此， 这 个 策略 只 是 在 探寻 有 效 的 基于 实例 学 习 方法 道路 上 的 一 块 
踏 脚 石 。 


6.4.2 修剪 干扰 样本 集 

对 任何 不 去 抑制 干扰 样本 集 的 最 近邻 方案 来 说 ， 干 扰 样 本 集 不 可 避免 地 会 降低 性 能 等 级 ， 
因为 它们 会 重复 地 造成 对 新 的 实例 的 错误 分 类 。 有 两 种 方法 可 以 解决 这 个 问题 。-- 种 是 预先 
决定 一 个 常数 k， 然 后 查找 k 个 最 近邻 的 实例 来 代 赤 查找 单个 最 近邻 实例 ， 并 将 多 数 类 赋予 未 
知 实例 。 问 题 只 是 怎样 给 定 合适 的 常数 k。 简 单 最 近邻 学 习 对 应 的 k 值 等 于 1。 干 扰 越 多 ，k 值 
就 应 定 得 越 大 。 -种 方法 是 设 定 几 种 不 同 的 x 值 进行 交叉 验证 ， 然 后 选择 其 中 最 好 的 。 虽 然 这 
样 计算 时 间 耗 费 很 多 ， 但 通常 能 达到 非常 好 的 预测 性 能 。 

第 -种 方法 是 监测 每 个 储存 样本 的 性 能 表现 ， 于 弃 表现 不 好 的 。 这 可 以 通过 记录 每 个 样 
本 所 做 出 的 正确 和 错误 的 分 类 决策 数 日 来 完成 。 在 成 功率 上 要 预 设 两 个 闪 值 。 当 某 个 样本 的 
性 能 低 于 国 值 下 限 ， 它 将 从 样本 集中 删除 。 如 果 性 能 超过 阔 值 上 限 ， 它 将 用 于 测试 新 的 实例 。 
如 果 性 能 介 于 两 者 之 间 ， 它 将 不 参与 预测 ， 但 只 要 它 是 新 实例 最 靠近 的 样本 (假如 它 的 性 能 
记录 足够 好 的 话 ， 它 就 会 参与 预测 )， 它 的 成 功 统计 就 要 被 更 新 ， 就 好 像 它 参 与 了 预测 那个 新 
的 实例 。 

为 了 完成 这 个 任务 ， 要 利用 5.2 节 中 伯 努 利 程式 (Bernoulli process) 成 功 概率 的 置信 边界 。 
回想 一 下 ， 我 们 将 N 次 测试 中 含有 5$ 次 成 功 ， 作 为 潜在 真实 成 功率 p 的 置信 边界 的 依据 。 给 定 某 
一 置信 和 度 ， 比 如 说 5% ， 可 以 计算 出 上 、 下 边界 ， 并 有 95% 的 把 握 p 将 落 入 上 上、 下 边界 之 内 。 
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为 了 把 这 点 运用 十 决定 何 时 接受 某 个 样本 ， 先 假设 某 个 样本 已 参与 4 次 对 其 他 实例 的 分 
类 ， 其 中 * 次 是 正确 的 。 这 使 我 们 能 估计 出 在 某 -- 置 信 放 下 ， 这 个 样本 真实 成 功率 的 边界 。 
现在 假设 这 个 样本 的 类 在 N 个 训练 实例 中 出 现 c 次 。 这 使 我 们 能 估计 出 缺 省 成 功率 的 边界 ， 这 
里 缺 省 成 功率 是 指 对 这 个 类 的 实例 分 类 的 成 功 概率 ， 而 不 考虑 其 他 实例 的 任何 信息 。 我 们 主 
张 真实 成 功率 的 置信 边界 下 限 要 高 于 缺 省 成 功率 置信 边界 的 上 限 。 用 同样 的 方法 来 设计 丢弃 
性 能 表现 差 的 样本 的 准则 ， 玉 弃 的 条 件 是 真实 成 功率 的 置信 边界 上 限 低 于 缺 省 成 功率 置信 边 
界 的 下 限 。 

选择 适当 的 阐 值 ， 这 个 方案 工作 得 很 好 。 在 IB3 即 “基于 实例 的 学 习 器 版 本 3” 的 实现 中 ， 
决定 接受 的 图 信和 度 设 为 5%， 决 定 丢 弃 的 置信 度 设 为 12.5%。 低 百分率 将 产生 较 宽 的 置信 区 间 ， 
是 为 更 严格 的 准则 设计 的 ， 因 为 这 使 一 个 区 间 的 下 限 要 位 于 另 一 个 区 间 的 上 限 之 上 更 加 困难 。 
决定 接受 的 准则 比 决定 丢弃 的 准则 更 为 严格 ， 使 得 一 个 实例 被 接受 更 为 困难 。 于 弃 准 则 不 那 
么 严格 的 原因 在 于 丢弃 分 类 正确 率 中 等 偏差 的 实例 几乎 不 会 有 什么 损失 : 很 有 可 能 以 后 会 有 
类 似 的 实例 来 取代 它 。 运 用 这 些 阐 值 能 使 基 寺 实例 的 学 习 方 案 的 性 能 得 到 提高 ， 同 时 大 幅 减 
少 了 储存 的 样本 数目 ， 特 别 是 于 扰 样 本 。 


6.4.3 属性 加 权 
经 过 修改 的 欧 几 里 得 距离 函数 使 所 有 的 属性 值 按 比例 转换 为 0 到 1 之 间 的 数值 ， 这 在 各 个 
属性 与 结果 的 相关 性 等 同 的 领域 中 能 较 好 地 工作 。 然 而 ， 这 类 领域 只 是 - -种 例外 而 非常 规 。 


在 多 数 领域 中 ， 部 分 属性 是 与 结果 无 关 的 ， 并 且 在 相关 属性 中 部 分 属性 不 如 其 他 属性 重要 。 
基于 实例 学 习 的 下 -- 步 改进 便 是 通过 动态 更 新 属性 权 值 来 递增 学 习 每 个 属性 的 相关 性 。 

在 “ 些 方案 中 ， 权 值 是 有 类 特性 (class specific) 的 ， 即 一 个 属性 可 能 对 某 种 类 比 对 其 
他 类 更 为 重要 。 为 了 配合 这 -点 ， 对 每 个 类 进行 描述 ， 使 每 个 类 的 成 员 与 属 二 其 他 类 的 成 员 
区 分 开 来 。 这 就 带 来 了 一 个 问题 、 即 一 个 未 知 的 测试 实例 可 能 会 被 赋予 几 个 不 同 的 类 ， 或 者 
个 类 也 没有 ， 一 个 我 们 在 讨论 规则 归纳 中 很 熟悉 的 问题 。 可 用 启发 式 解决 方案 来 解决 这 些 
问题 。 

距离 衡量 在 各 个 维 上 将 各 自 属性 权 值 wj, w … , w 合并 在 一 起 考虑 : 


六 2 2 2 2 
ywi (4, -¥)) + w(x) — yy) +--+ wi (x, —Y,) 


当 属 性 权 值 存在 类 特性 的 情形 时 ， 每 个 类 各 自 拥 有 一 组 属性 权 值 。 

对 每 个 训练 实例 进行 分 类 之 后 ， 所 有 的 属性 权 值 都 要 被 更 新 ， 更 新 是 基于 最 类 似 的 样本 
(或 每 个 类 最 类 似 的 样本 )。 训 练 实例 +， 最 类 似 样 本 y， 对 每 个 属性 ;来 说 ， 差 异 lx; -yl 是 这 个 
属性 对 分 类 决定 所 做 贡献 的 一 种 衡量 。 如 果 差 异 很 小 ， 这 个 属性 的 贡献 是 正 向 的 、 而 差异 很 
大 时 ， 和 贡献 则 是 负 向 的 。 基 本 的 理念 是 依据 这 个 差异 的 大 小 以 及 分 类 是 否 确实 正确 ， 来 更 新 
第 i 个 属性 的 权 值 。 如 果 分 类 正确 ， 相 关 的 权 值 增加 ; 如 果 分 类 错误 ， 则 减 小 。 增 加 或 减少 的 
幅度 由 差异 大 小 来 控制 、 如 果 差 异 小 、 幅 盘 便 大 ， 反 之 亦 然 。 跟 随 权 值 改 变 之 后 的 通常 是 重 
整 化 (renormalization) 步骤 。-- 个 可 能 法 到 相同 效果 而 更 为 简单 的 方法 是 ， 如 果 决 策 正确 ， 
PUA DU: 如 果 错 误 ， 则 增加 差异 最 大 的 那 总 罚 性 的 权 值 ， 以 强 泣 差 异 。Aha (1992 年 ) 对 这 
些 权 值 调整 的 算法 进行 了 详细 介绍 。 

-个 检验 属性 加 权 方 案 是 否 有 效 的 好 方法 是 在 数据 集 所 有 实例 中 添加 无 关 属 性 。 理 想 状 
况 是 ， 无 关 属 性 的 介入 ， 既 不 影响 预测 质量 ， 也 不 影响 储存 样本 的 数目 。 
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6.4.4 推广 样本 集 


被 推广 了 的 样本 集 是 实例 空间 上 的 矩形 区 域 ， 因 为 它们 是 高 维 的 ， 因 此 称 为 超 矩 形 
(hyper-rectangles)。 在 对 新 的 实例 进行 分 类 时 ， 很 有 必要 按 下 面 所 述 的 方法 来 修正 距离 函数 ， 
使 之 能 计算 实例 与 超 和 矩形 间 的 距离 。 当 一 个 新 实例 被 正确 分 类 时 ， 推 广 便 是 简单 地 将 它 与 同 
一 个 类 中 最 近邻 的 样本 合并 起 来 。 最 近邻 样本 不 是 单个 的 实例 就 是 一 个 超 矩 形 。 在 前 一 种 情 
形 下 就 产生 了 一 个 新 的 超 和 矩形， 它 包含 新 的 和 旧 的 实例 。 在 后 一 种 情形 下 ， 超 矩形 就 会 扩大 ， 
将 新 的 实例 包 仿 进去。 最后， 如果 预 测 不 正确 ， 而 且 导 致 做 出 错误 预测 的 是 一 个 超 矩 形 ， 那 
么 这 个 超 和 矩形 的 边界 就 会 改变 ， 从 而 退 离 新 的 实例 。 

很 有 必要 在 一 开始 就 决定 是 否 允 许 由 于 超 矩 形 典 套 或 重合 而 引起 的 过 度 推广 。 如 要 避免 
过 度 推广 ， 在 推广 一 个 新 实例 之 前 要 进行 检查 ， 看 看 新 的 超 矩 形 是 否 会 与 任何 属性 空间 的 区 
域 相 冲 突 。 如 果 有 冲突 便 放弃 推广 ， 将 这 个 实例 如 实 储存 起 来 。 注 意 超人 算 形 的 重 从 正如 同 在 
一 个 规则 集 里 ， 同 一 个 实例 被 两 条 或 两 条 以 上 的 规则 所 包含 。 

在 某 些 方案 中 ， 当 一 个 经 推广 的 样本 集 被 完全 包含 在 另 一 个 中 时 ， 可 使 用 和 套 ， 就 如 同 
在 某 些 表达 中 ， 规 则 会 有 例外 。 为 达 这 个 目的 ， 每 当 一 个 实例 被 错误 分 类 时 ， 应 用 一 个 后 退 
启发 式 方法 ， 即 如 果 第 二 近邻 样本 能 产生 正确 预测 ， 使 用 第 二 近邻 样本 ， 再 次 试行 推广 。 这 
种 使 用 第 一 次 推广 机 会 的 方法 促使 超 矩 形 的 嵌 套 。 如 果 一 个 实例 正好 落 入 一 个 代表 错误 类 的 
和 矩形 中 ， 而 这 个 矩形 中 已 含有 一 个 与 此 实例 同类 的 样本 ， 它 们 两 个 便 会 进行 推广 ， 形 成 庶 套 
在 原来 的 矩形 中 的 一 个 新 的 “例外 ” 超 和 矩形 。 对 于 赂 套 推广 样本 ， 为 了 防止 同属 一 个 类 的 所 
有 实例 推广 成 单个 的 矩形 而 占据 问题 空间 的 大 部 分 ， 学 习 过 程 经 常 始 于 -- 小 部 分 的 实例 。 


6.4.5 用 于 推广 样本 集 的 距离 函数 


对 于 推广 样本 集 ， 很 有 必要 对 距离 函数 进行 
广 ， 用 于 计算 某 个 实例 离开 一 个 推广 样本 或 另 一 个 
实例 的 距离 。 当 实例 点 落 在 超 垂 形 内 时 ， 这 个 实例 
离开 超 和 矩形 的 距离 被 定义 为 零 。 一 个 最 为 简单 的 用 
于 计算 位 于 超 和 矩形 外 的 实例 离开 超 矩 形 距 离 的 方法 
便 是 在 超 矩 形 内 选择 离开 这 个 实例 最 近 的 实例 、 并 
计算 它们 之 间 的 距离 。 但 是 ， 这 种 方法 前 弱 了 推广 
的 益处 ， 因 为 它 引发 了 对 某 个 具体 实例 的 依赖 。 更 
精确 地 说 ， 正 好 落 入 超 矩 形 的 新 实例 能 继续 保留 推 
广 的 益处 ， 而 位 于 超 和 矩形 之 外 的 则 不 能 。 或 许 使 用 
(新 实例 ) 离开 最 为 靠近 的 部 分 超 矩 形 的 距离 来 磁 
代 会 更 好 些 。 

图 6-14 展 示 了 使 用 最 近邻 点 距离 衡量 方法 时 ， 
两 个 矩形 类 之 间 的 隐 含 边界 。 即 使 是 在 二 维 空 间 . 
边界 也 包含 九 个 区 域 ( 图 中 用 数字 标 出 ,方便 辨认 )， 
那么 在 高 维 超 矩 形 的 情况 下 就 更 为 复杂 了 。 

从 左下 角 开 始 , 第 一 个 区 域 分 界线 是 呈 线 性 的 ， 
区 域 位 于 两 个 矩形 的 延伸 范围 之 外 ， 即 大 矩形 两 边 图 6-14 两 个 矩形 类 之 问 的 分 界线 
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界 的 右 方 ,但 在 另 -个 矩形 延伸 范围 之 外 ， 小 矩形 两 边界 的 下 方 。 在 这 个 区 域 分 界线 呈 抛 物 
线 ， 因 为 离 一 条 给 定 线 和 一 个 给 定点 距离 相等 的 所 有 点 的 集合 是 一 条 抛物 线 。 第 三 个 区 域 是 
分 界线 向 上 能 投射 到 大 矩形 的 下 边界 而 向 右 能 投射 到 小 矩形 的 左边 界 的 区 域 。 这 条 分 界线 呈 
线性 ， 因 为 它 离 两 条 矩形 边界 是 等 距离 的 。 第 四 个 区 域 分 界线 位 于 大 矩形 的 右 下 方 。 这 时 分 
界线 是 呈 抛 物 线 ， 因 为 它 是 离 大 矩形 右 下 角 和 小 矩形 的 左边 界 等 距 的 点 的 集合 。 第 五 个 区 域 
位 于 两 个 矩形 之 间 : 这 里 分 界线 是 垂直 的 。 右 上 部 分 图 形 重复 这 样 的 模式 : 先是 抛物 线 ， 接 
着 是 线性 ， 然 后 又 是 抛物 线 (虽然 这 条 抛物 线 和 直线 很 难 区 分 )， 最 后 是 线性 分 界线 ， 脱 离 了 
两 个 矩形 范围 。 

这 个 简单 的 情形 定义 了 一 个 复杂 的 分 界 边界 ! 当然 没有 必要 非常 清楚 地 表达 分 界线 ， 它 
是 通过 最 近邻 计算 得 出 的 。 然 而 这 还 不 是 很 好 的 方法 。 用 超 矩 形 中 的 最 近邻 实例 来 计算 中 
离 过 度 依赖 与 某 个 具体 位 置 上 的 实例 ， 即 过 度 依赖 与 矩形 的 某 个 角 ， 最 近邻 实例 可 能 离 这 个 
角 较 远 。 

最 后 来 关注 下 重合 或 幅 套 超 矩 形 的 距离 衡量 问题 。 这 时 ， 因 一 个 实例 可 能 落 和 人 多 于 一 
个 的 超 矩 形 中 ， 使 问题 复杂 化 了 。 适 用 于 这 种 情况 的 一 个 启发 式 方法 是 选择 包含 这 个 实例 且 
超 矩 形 最 为 其 体 化 的 类 ， 即 覆盖 实例 空间 最 小 的 类 。. 

无 论 是 否 允 许 重叠 或 做 套 ， 都 要 修正 距离 函数 ， 以 考虑 样本 预测 正确 率 以 及 不 同属 性 的 
相对 重要 性 ， 正 如 前 一 节 所 述 的 修剪 干扰 样本 和 属性 加 权 那 样 。 


6.4.6 推广 的 距离 函数 


-个 距离 函数 有 很 多 方法 ， 也 很 难 找 出 理由 来 做 任何 一 种 具体 的 选择 。 一 个 较 好 的 
peers :个 实例 通过 一 系列 预 设 的 初级 运算 转换 成 另 一 个 实例 ， 然 后 计算 当 运 算 方式 
为 随机 选择 时 这 个 系列 运算 会 出 现 的 概率 。 如 果 考 虚 所 有 可 能 的 转换 路 径 ， 用 它们 的 概率 进 
行 加 权 ， 这 将 使 方案 更 趋 成 熟 。 将 这 个 方法 自然 推广 到 计算 某 个 实例 和 其 他 一 系列 实例 之 间 
的 距离 问题 时 ， 便 是 要 考虑 将 这 个 实例 转换 为 系列 中 的 所 有 实例 。 通 过 这 种 技术 ， 使 得 考虑 
每 个 实例 “影响 范围 ”成 为 可 能 ， 这 个 范围 是 软 边界 而 非 最 近邻 规则 对 某 个 实例 的 决策 不 是 
“内 ”就 是 “外 ”的 硬 边界 分 隔 。 

用 这 种 方法 ， 对 于 一 个 类 未 知 的 测试 实例 ， 依 次 计算 它 和 每 个 类 的 训练 实例 集 的 距离 ， 
选择 距离 最 近 的 类 。 这 种 通过 定义 不 同 的 转换 集 的 基于 转换 的 方法 对 名 词性 属性 和 数值 属性 
AREA, RETA SR - 些 不 常用 的 属性 ， 如 绝 度 、 星 期 等 ， 它 们 都 是 循环 量度 的 。 


6.4.7 讨论 


继 Aha (1992 年 ) 发 现 基于 实例 的 学 习 方 法 结合 修剪 干扰 样本 和 给 属性 加 权 ， 能 达到 较 其 
他 学 习 方 法 更 好 的 工作 效果 之 后 ， 最 近邻 法 在 机 器 学 习 领 域 得 到 普及 。 值 得 一 提 的 是 虽然 我 
们 只 是 在 分 类 中 讨论 这 个 问题 而 没有 对 数值 预测 进行 讨论 ， 但 它们 是 同等 适用 的 : 可 以 由 k 个 
最 近邻 的 预测 值 根据 距离 加 权 组 合 起 来 得 出 最 终 的 预测 。 

从 实例 空间 的 角度 看 ， 标 准 规则 和 基于 树 的 表示 方法 ， 只 能 表示 与 属性 定义 的 轴 相 平行 
的 类 边界 。 这 并 不 妨碍 名 词性 的 属性 ， 但 对 数值 属性 有 障碍 。 非 轴 平行 的 类 边界 只 能 根据 在 
边界 上 下 的 一 些 轴 平 行 矩形 所 覆盖 的 区 域 进行 近似 ， 和 拢 形 的 数目 决定 了 近似 记 。 相 反 ， 基 于 
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实例 的 方法 可 以 很 容易 地 表示 任意 的 线性 边界 。 即 使 是 一 个 二 类 问题 而 每 个 类 只 有 一 个 实例 ， 
由 最 近邻 规则 得 到 的 边界 是 … 条 任意 方向 的 直线 ， 即 两 个 实例 连 线 的 重 直 平分 线 。 

简单 的 基于 实例 的 学 习 方 法 不 提供 清楚 的 知识 表达 ， 除 了 选择 代表 样本 。 但 当 它 和 样本 
推广 结合 在 -起 时 ， 可 得 到 一 组 规则 集 ， 这 组 规则 集 可 用 来 与 其 他 机 器 学 习 方 案 所 产生 的 规 
则 集 相 比 较 。 这 些 规 则 更 趋 于 稳定 ， 因 为 经 修改 的 、 结 合 了 推广 样本 的 距离 函数 ， 可 用 于 处 
理 不 落 入 规则 内 的 实例 。 这 减少 了 规则 要 覆盖 整个 实例 空间 ， 甚 至 所 有 训练 实例 空间 所 带 来 
的 床 力 。 而 另 一 方面 ， 大 多 数 基于 实例 的 学 习 方案 的 递增 特性 ， 意 味 着 在 只 看 到 一 部 分 训练 
集 时 ， 便 很 迫切 地 产生 规则 ， 而 这 不 可 避免 地 降低 了 规则 质量 。 

因为 不 很 清楚 最 好 用 何 种 方法 进行 推广 ， 我 们 没有 提供 各 种 运用 推广 的 基于 实例 学 习 的 
精确 算法 。Salzberg (1991 年 ) 提出 使 用 斤 套 样本 的 推广 可 以 在 一 些 不 同 分 类 问题 中 取得 较 高 
的 分 类 正确 率 。Wettschereck 和 Dietterich (1995 年 ) 辩论 说 这 些 结论 是 偶然 的 ， 在 其 他 领域 
并 不 成 立 。Martin ( 1995 年 ) 揭示 了 性 能 表现 差 的 原因 是 因为 当 超 瑟 形 重 秋 或 众 套 而 引起 过 
度 推广 ， 而 非 推广 造成 性 能 差 。 他 还 证 实 了 在 很 多 领域 中 ， 如 果 避 免 了 重 普 或 幢 套 的 发 生 ， 
会 得 到 很 好 的 效果 。Cleary 和 Trigg (1995 年 ) 提出 了 基于 转换 的 推广 距离 函数 。 

样本 推广 是 -- 种 少见 的 学 习 策 略 的 例子 ， 它 的 搜寻 过 程 是 从 具体 到 -- 般 ， 而 不 像 树 或 规 
则 归纳 过 程 是 从 “ 般 到 县 体 。 没 有 特别 的 理由 能 使 人 信服 这 个 从 具体 到 -一般 的 搜寻 必须 对 实 
例 采用 严格 的 递增 模式 考虑 ， 使 用 基本 的 基于 实例 的 方法 来 产生 规则 的 批 处 理 方案 也 是 存在 
的 。 另 外 ， 进 行 保守 的 推广 ， 对 没有 获 盖 的 实例 挑选 “最 近 ” 推 广 是 非常 好 的 主意 ,最终 可 
以 延伸 为 普通 树 和 规则 的 归纳 。 


6.5 数值 预测 


用 于 数值 预测 的 树 就 像 普 通 的 决策 树 ， 但 在 叶 节点 所 储存 的 是 代表 时 节点 处 实例 平均 值 
的 一 个 类 值 ， 这 种 树 称 为 回归 树 , 或 者 是 在 叶 节点 储存 了 能 预测 达到 叶 节 点 的 实例 类 值 的 一 个 
线性 回归 模型 ， 这 种 树 称 为 模型 树 。 下 面 我 们 要 讨论 模型 树 ， 因 为 回归 树 实际 上 是 一 种 特殊 
情况 。 

问 归 树 和 模型 树 先是 使 用 决策 树 归纳 算法 建立 一 个 初始 树 。 但 是 ， 在 大 多 数 的 决策 树 算 
法 中 ， 属 性 分 裂 是 根据 信息 增益 最 大 值 来 选择 的 ， 那 么 在 数值 预测 中 ， 适 合 使 每 个 分 支 子 集 
内 部 类 值 变 化 最 小 化 。 -… 昌 形成 了 基本 树 ， 就 要 考虑 从 每 个 叶 节 点 往 回 修剪 树 ， 就 像 普通 决 
策 树 一 样 处 理 。 回 归 树 和 模型 树 归纳 法 的 区 别 只 是 在 于 ， 后 者 的 每 个 节点 用 一 个 回归 平面 来 
替代 一 个 常量 值 。 参 与 准确 定义 回归 的 属性 ， 正 是 那些 参与 决定 子 树 修剪 的 属性 ， 即 在 当前 
节点 的 下 层 节点 中 。 

在 广泛 讨论 模型 树 之 后 ， 将 简单 地 讨论 怎样 从 模型 树 中 产生 规则 ， 然 后 介绍 另 - -种 数值 
预测 方法 、 局 部 加 权 线性 回归 。 模 型 树 是 从 基本 的 分 治 决策 树 算法 演绎 厕 来， 局 部 加 权 线 性 
回归 则 是 受 启 于 前 一 节 讨 论 的 基于 实例 的 分 类 方法 。 如 同 基于 实例 的 学 习 ， 它 是 在 预测 阶段 
进行 所 有 “学习 ”的 。 局 部 加 权 线性 回归 法 利用 线性 回归 使 模型 局 部 拟 合 与 具体 的 实例 空间 
来 组 建 模型 树 ， 但 它 采 用 了 相当 不 同 的 方法 。 


6.5.1 模型 树 
当 使 用 模型 树 来 对 一 个 测试 实例 进行 数值 预测 时 ， 像 普通 的 决策 树 一 样 ， 在 每 个 节点 根 
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据 实例 的 属性 值 来 决定 走向 ， 直 至 树 的 叶 节 点 。 叶 节点 含有 一 个 基于 部 分 属性 值 的 线性 模型 ， 
使 测试 实例 得 到 一 个 原始 的 预测 值 。 

在 修剪 过 的 树 的 两 个 相 邻 叶 节点 的 线性 模型 之 间 会 不 可 避免 地 产生 突变 ， 使 用 平 请 处 理 
补偿 这 个 突变 来 替代 直接 使 用 原始 的 预 而 值 会 更 加 有 益 。 这 是 在 小 规模 的 训练 集 上 构建 模型 
的 特别 问题 。 平 滑 可 以 通过 在 建树 的 时 候 ， 如 同 在 叶 节 点 一 样 ， 为 每 个 内 部 节点 建 线 性 模型 
来 实现 。 当 一 个 测试 实例 根据 叶 节 点 模型 得 到 一 个 原始 预测 值 时 ， 这 个 值 沿 着 树 一 路 过 滤 返 
回 根 节 点 ， 在 每 个 节点 将 这 个 值 与 该 节点 的 线性 模型 所 提供 的 预测 值 结合 进行 平 请 处 理 。 

一 个 适当 的 平滑 计算 是 

,_ np+kq 

S atk 
这 里 p' 是 要 向 上 一 层 节 点 传输 的 预测 值 ，p 是 由 下 层 节 点 传输 上 来 的 预测 值 ，g 是 这 个 布点 提 
供 的 预测 值 , n 是 下 层 节 点 的 训练 实例 数量 ，k 是 平 光 常 量 。 试 验证 明 平滑 处 理 大 大 提高 了 预测 
的 正确 性 。 

EMS BAM AREAS DAR, AGAR ER. AB 
么 在 分 类 过 程 中 ， 只 需要 用 叶 节 点 模型 。 缺 点 是 叶 节 点 模型 变 得 大 而 难以 理解 ， 因 为 当 内 部 
节点 模型 加 入 后 ， 很 多 原来 为 零 的 系数 现在 变 为 非 零 系 数 了 。 


6.5.2 建树 


分 裂 标准 用 于 决定 对 某 个 具体 节点 的 训练 数据 7， 按 哪 个 属性 分 裂 最 好 。 基 于 把 数据 7 中 
类 值 的 标准 差 看 作 是 对 这 个 节点 的 误差 衡量 ， 并 且 计 算 期 望 误差 减少 值 作为 对 这 个 节点 每 个 
属性 进行 测试 的 结果 。 选 择 使 期 望 误差 减少 值 达 到 最 大 的 属性 作为 这 个 节点 的 分 型 属性 。 

期 望 误 差 减 少 值 称 为 SDR， 即 标准 差 减少 值 (standard deviation reduction ) ， 计 算 如 下 : 


SDR =san) -Ex saen) 


这 里 T, Taon T, 是 根据 所 选 属性 在 节点 进行 分 裂 的 结果 数据 集 。 


当 在 一 个 节点 的 实例 类 值 变 化 非常 细微 时 ， 便 终止 分 裂 过 程 ， 即 当 标准 差 只 是 占 原始 标 


准 差 的 “小 部 分 时 〈 比 如 小 于 5% )。 当 只 剩 下 很 少 的 实例 时 ， 比 如 4 个 或 更 少 ， 也 终止 分 裂 。 
试验 证 明 所 得 的 预测 结果 对 这 些 国 值 选择 并 不 很 敏感 。 


6.5.3 修剪 树 


如 前 所 述 ， 不仅 在 树 的 每 个 时 节点 有 一 个 线性 模型 ， 在 每 个 内 部 节点 上 也 要 有 ， 这 是 为 
了 进行 平滑 处 理 的 需要 。 在 修剪 之 前 ， 未 修剪 树 的 每 个 节点 上 都 有 一 个 模型 。 模 型 的 形式 为 


Wy + Wa + Wa, +++ + Wa, 


这 里 @, an …, at 是 属性 值 ， 权 值 wi, w;, …, w 用 标准 回归 法 计算 。 然 而 ， 只 有 这 个 节点 下 层 
子 树 的 测试 属性 才 用 于 回归 ， 因 为 其 他 影响 预测 值 的 属性 已 在 引入 这 个 节点 的 测试 中 考虑 进 
去 了 。 注 意 ， 前 提 是 我 们 假设 它们 都 是 数值 属性 : 在 下 -- 节 中 讨论 名 词性 属性 的 处 理 方法 。 
修剪 过 程 使 用 了 一 个 估计 器 ， 是 在 每 个 节点 、 对 测试 数据 期 望 错误 的 估计 器 。 首 先 ， 将 
这 个 节点 上 所 有 训练 集 实例 的 预测 值 和 真实 类 值 之 间 的 绝对 偏差 进行 平均 值 计 算 。 由 于 树 是 





w 
fea} 
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用 这 个 数据 集 建立 的 ， 这 个 平均 值 对 于 未 见 情形 来 说 ， 是 个 低估 的 期 望 误差 。 为 了 补偿 这 一 
点 ， 将 它 与 系数 (nt+v)/ (nv) 相 乘 ， 这 里 * 是 这 个 节点 的 训练 实例 数量 ，* 是 给 出 这 个 节点 预测 
类 值 的 线性 模型 所 用 的 参数 数量 。 

在 某 个 节点 对 测试 数据 的 期 望 误 差 计算 如 上 所 述 ， 使 用 线性 模型 进行 预测 。 因 为 有 补偿 
系数 (n+v)/ (n ~v) ， 可 以 通过 减少 项 数 使 估计 误差 达到 最 小 化 ， 从 而 使 线性 模型 进一步 简化 。 
减少 一 项 便 减 小 了 相 乘 系数 ， 这 也 许 足 以 平衡 在 训练 实例 上 平均 误差 的 不 可 避免 的 增加 。 只 
要 估计 误差 还 在 降低 ， 便 继续 采用 贪心 式 逐 个 减少 项 数 。 

最 后 ， … 旦 每 个 内 部 节点 的 线性 模型 都 已 到 位 ， 只 要 期 望 估计 误差 还 在 降低 ， 便 从 叶 节 
点 返回 修剪 树 。 将 节点 的 线性 模型 期 望 误差 与 其 子 树 的 模型 期 望 误 差 进行 比较 。 为 了 计算 后 
者 ， 将 来 自 每 个 分 支 的 误差 组 合 起 来 产生 一 个 综合 值 。 这 个 综合 值 是 根据 分 支 训练 实例 的 数 
县 比 率 对 分 支 加 权 ， 利 用 这 些 权 值 将 误差 估计 进行 线性 组 合 。 


6.5.4 名 词性 属性 


在 建 一 个 模型 树 之 前 ， 所 有 的 名 词性 属性 都 被 转换 成 二 进 制 变量 ， 随 后 便 被 当 作 数字 一 
样 对 待 。 对 每 个 名 词性 属性 ， 根 据 训 练 实例 计算 每 个 可 能 的 属性 枚 举 值 所 对 应 的 平均 类 值 ， 
然后 按照 这 些 平 均值 将 属性 枚 举 值 按 序 排列 。 如 果 名 词性 属性 有 k 个 可 能 的 属性 值 ， 就 要 用 
一 1 个 合成 二 进 制 属性 来 替代 。 如 果 属 性 值 是 属性 序列 中 前 i 个 中 的 一 个 ， 那 么 第 i 个 属性 值 为 
0， 否 则 为 1。 这 样 所 有 的 分 裂 都 是 二 分 的 ， 所 牵涉 到 的 不 是 一 个 数值 属性 就 是 一 个 可 与 数值 
属性 同样 对 待 的 合成 二 进 制 属性 。 

可 以 证 明 在 某 个 节点 对 于 含 k 个 值 的 名 词性 变量 ， 最 好 的 分 裂 点 是 按 每 个 属性 值 的 平均 类 
值 大 小 排序 所 得 到 的 &- 1 个 位 置 中 的 一 个 。 这 个 排序 过 程 确实 要 在 每 个 节点 重复 进行 ;但 是 ， 
由 于 在 树 的 下 层 节 点 中 训练 实例 数目 很 小 (在 某 些 情况 下 ， 节 点 没有 表现 出 某 些 属 性 所 有 的 
值 )， 难 免 增加 了 干扰 ， 而 只 在 建 模型 树 之 前 进行 一 次 排序 并 不 损失 很 多 。 


; 6.5.5 残缺 什 


为 了 考虑 残缺 值 ， 对 标准 差 减 少 值 (SDR) 公式 进行 了 修改 。 包 括 残缺 值 补偿 , 最 后 的 公 
RA 


SDR = i x an- y P x sd(T,) 

"这 里 m 是 属性 没有 残缺 值 的 实例 数量 ，7 是 在 这 个 节点 上 的 实例 集 ，T ,T。 是 用 这 个 属性 进行 
分 裂 所 得 的 两 个 实例 集 ， 对 属性 的 所 有 测试 都 是 二 分 的 。 

| 在 处 理 训练 和 测试 实例 时 ， 一 旦 某 个 属性 被 选 定 用 于 分 裂 就 必须 将 实例 根据 它们 各 自在 
. 这 个 属性 上 的 数值 分 成 两 个 子 集 。 很 明显 ， 当 属性 值 残缺 时 就 会 发 生 问 题 。 一 种 有 趣 的 技术 
RAK AN (surrogate splitting) 用 于 处 理 这 类 问题 。 它 要 寻找 另 一 个 分 裂 属性 来 代替 原来 
; 的 分 裂 属性 。 被 选择 的 属性 与 原来 的 属性 相关 性 最 高 。 但 是 ， 这 种 技术 不 仅 复杂 而 且 执 行 起 
来 很 耗 时 。 

| 一 个 比较 简单 的 方法 是 用 类 值 作为 代理 属性 ， 相 信 根 据 推理 ， 它 是 最 有 可 能 与 分 裂 属 
性 相关 的 一 个 属性 。 当 然 这 只 能 是 用 于 处 理 训练 实例 ， 因 为 测试 实例 的 类 是 未 知 的。 解决 
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测试 实例 的 “个 简单 方 法 是 用 这 个 节点 上 的 训练 实例 的 对 应 属性 的 平均 值 来 代 赫 这 个 未 知 
的 属性 值 ， 对 二 值 属性 来 说 ， 结 果 是 选择 拥有 多 数 实例 的 子 节点 。 这 个 简单 的 法 在 实际 应 


用 中 效果 不 错 。 


现在 来 仔细 看 -下 怎样 在 训练 过 程 中 利用 类 值 作为 代理 属性 。 首先 处 理 分 裂 属性 值 已 知 
的 所 有 实例 。 用 常规 方法 来 决定 分 裂 阀 值 ， 将 实例 按 属性 值 排 列 ， 对 每 个 可 能 的 分 裂 点 根据 
上 述 公 式 计算 SDR， 选 择 误差 减少 值 最 大 的 分 裂 点 。 只 有 分 裂 属 性 值 已 知 的 实例 才 参 与 决定 : 


分 裂 点 。 


上 的 训练 实例 的 相应 属性 平均 值 来 替代 。 


6.5.6 模型 树 归纳 伪 代 码 


图 6-15 给 出 了 模型 树 算法 的 伪 代 码 。 其 中 有 两 个 主要 部 分 ， 一 个 是 通过 连续 不 断 地 分 裂 节 点 
来 建树 ， 由 sp1it 来 实现 ， 还 有 一 个 是 从 叶 节点 向 上 修剪 树 ， 由 prune 来 实现 。 节 点 (node) 的 
数据 结构 包括 : 标明 这 个 节点 是 内 部 节点 还 是 叶 节 点 的 类 型 标记 ; 指向 左 分 支 和 指向 右 分 支 的 
指针 ; 到 达 这 个 节点 的 实例 集 ; 这 个 节点 的 分 裂 属性; 以 及 一 个 代表 这 个 节点 线性 模型 的 结构 。 


MakeModelTree (instances) 
{ 


SD = sd(instances) 
for each k-valued nominal attribute 
convert into k-1 synthetic binary attributes 
root = newNode 
root.instances = instances 
split (root) 
prune (root) 
printTree (root) 
} 


split (node) 





if sizeof (node.instances) < 4 or sd(node.instances) < 0.05*SD 
node.type = LEAF 
else 
node.type = INTERIOR 
for each attribute 
for all possible split positions of the attribute 
calculate the attribute's SDR 
node.attribute = attribute with maximum SDR 
split (node. left) 
split (node. right) 
} 
prune (node) 
{ 


if node = INTERIOR then 











图 6-15 模型 树 归纳 伪 代 码 


然后 根据 铀 试 将 这 些 实 例 分 成 2Z 和 R 两 个 子 集 。 再 来 决定 Z 或 R 中 的 实例 哪个 平均 类 值 较 大 ， 
并 计算 这 两 个 平均 类 值 的 平均 值 。 这 样 ， 属性 值 未 知 的 实例 就 根据 它 的 类 值 是 否 超过 总 体 平 
均值 来 决定 将 它 放 入 Z 还 是 R 中 。 如 果 超 过 总 体 平 均值 ， 它 将 加 入 Z 或 R 中 具有 较 大 平均 类 值 的 ， 
那个 ， 和 否则 便 加 入 具有 较 小 平均 类 值 的 那个 。 当 分 裂 停止 时 ， 所 有 的 残缺 属性 值 都 用 时节 点 
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prune (node. leftChild) 

prune (node. rightChild) 

node.model = linearRegression (node) 

if subtreeError (node) > error (node) then 
node.type = LEAF 


} 
subtreeError (node) 
{ 

1 = node.left; r = node.right 

if node = INTERIOR then 

return (sizeof (l1.instances) *subtreeError (1) 
+ sizeof (r. instances) *subtreeError (r) ) /sizeof (node. instances) 
else return error (node) 





图 6-15 ( 续 ) 


主 程序 一 开始 就 调用 sd 函数 ， 在 split 一 开始 又 再 次 调用 ， 用 于 计算 一 个 实例 集 类 值 的 
标准 差 。 接 着 是 如 前 所 述 的 转换 合成 二 进 制 属 性 过 程 。 创 建 一 个 新 节点 以 及 输出 最 终 树 的 标 
准 程序 没有 在 这 里 展示 。 在 split 中 ，sizeof 返 回 一 个 集合 中 所 含 元 素数 量 。 残 缺 属性 值 
的 处 理 采 用 前 面 所 述 的 方法 。SDR 根 据 上 一 子 节 开 始 的 公式 计算 。 虽 然 没 有 在 代码 中 显示 ， 
但 如 果 根 据 一 个 属性 分 裂 所 产生 的 叶 节 点 包含 实例 数 少 于 两 个 ， 它 的 结果 便 被 设 定 为 无 穷 大 。 
在 prune 中 ，linearRegression 程 序 沿 着 子 树 一 直 向 下 搜集 属性 进行 递归 ， 对 节点 所 含 
实例 的 这 些 属性 执行 线性 回归 形成 函数 ， 然 后 如 前 所 述 只 要 能 改善 误差 估计 ， 贪 心 式 地 减少 
项 。 最 后 ， 误 差 error 函 数 返 回 


NEV Lv | FHM R15 1H | 
n-v n 


这 里 n 是 节点 上 的 实例 数量 ，v 是 节点 线性 模型 的 参数 数量 。 
图 6-16 是 利用 这 个 算法 对 一 个 含有 两 个 数值 属性 和 两 个 名 词性 属性 问题 建立 模型 树 的 例 





图 6-16 含 名 词性 属性 数据 集 的 模型 树 
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子 。 要 预测 的 是 模拟 伺服 系统 的 上 升 时 间 ， 系 统 包括 伺 服 放大 器 、 电 动机 (motor). RE 
(lead screw) 和 滑 架 。 名 词性 属性 在 其 中 担当 着 重要 的 角色 。 各 含有 5 个 属性 值 的 名 词性 属性 
motor 和 screw 由 4 个 合成 二 进 制 属性 所 替代 ， 表 6-1 列 出 了 对 应 的 两 组 值 。 这 些 属 性 值 的 顺序 : 
motor 为 D、E、C、B、A，screw 正 巧 也 是 D、E、C、B、A， 都 是 由 训练 数据 决定 的 。 使 用 
motor = D 的 所 有 实例 的 上 升 时 间 平 均值 小 于 使 用 motor = E 的 所 有 实例 的 上 升 时 间 平 均值 ， 使 
用 motor = E 的 又 小 于 使 用 motor = C 的 ， 依 次 类 推 。 从 表 6-1 所 列 的 系数 大 小 可 以 明显 看 出 ， 
motor = D 对 于 E、C、B、A 在 LM2 模 型 中 起 着 主导 作用 ; motor = D、E 对 于 C、B、A 在 LMI 
模型 中 起 着 主导 作用 。motor 和 screw 在 某 些 模型 中 都 处 于 次 要 角色 。 决 策 树 展示 了 对 数值 属 
性 实行 三 分 的 方法 。 起 先是 按 常规 建立 二 分 树 ， 但 出 现 了 根 节点 和 它 的 一 个 子 节 点 使 用 相同 
的 测试 属性 pgain， 因 此 用 了 一 个 简单 的 算法 将 这 两 个 节点 合并 成 如 图 所 示 的 更 易 理 解 的 树 。 


表 6-1 模型 树 中 的 线性 模型 





模 型 LM! LM2 LM3 LM4 LMS LM6 LM7 
Constant term 一 0.44 2.60 3.50 0.18 0.52 0.36 0.23 
pgain 
vgain 0.82 0.42 0.06 
motor = D vs. E.C. BLA 3.30 0.24 0.42 
motor = D, E vs. C, BLA 1.80 ~ 0.16 0.15 0.22 
motor = D, E, C vs. B, A 0.10 0.09 0.07 
motor =D, E,C,B vs. A 0.18 
screw = D vs. E, C, B, A 
screw = D, E vs.C.B.A 0.47 
screw = D, E, C vs. BLA 0.63 0.28 0.34 
screw=D,E,C,B vs.A 0.90 0.16 0.14 





6.5.7 从 模型 树 到 规则 


模型 树 从 本 质 上 来 看 就 是 在 叶 节 点 带 有 模型 的 决策 树 。 同 决策 树 一 样 ， 它 们 都 会 存在 
3.3 节 中 提 到 的 子 树 复制 的 问题 ， 有 时 用 规则 集 来 代替 树 表示 这 个 结构 会 更 加 精确 一 些 。 可 
以 从 数值 预测 中 产生 规则 吗 ? 回顾 一 下 6.2 节 中 所 述 的 规则 学 习 器 ， 它 是 用 割 冶 法 同 局 部 决 
策 树 共同 协作 来 从 树 中 提炼 决策 规则 的 。 可 以 应 用 同样 的 策略 从 模型 树 中 产生 用 于 数值 预测 
的 决策 列 。 

先 用 所 有 的 数据 建 一 个 局 部 模型 树 。 选 择 其 中 的 一 个 时 节点 把 它 转变 为 一 条 规则 。 将 这 
个 叶 节 点 所 涵盖 的 数据 去 除 ， 重 复 上 述 步 又 对 剩余 的 数据 进行 处 理 。 问 题 是 怎样 来 建 局 部 模 
型 树 ， 即 一 个 未 展开 节点 的 树 ?这 个 问题 归结 为 怎样 选择 下 一 个 展开 节点 。 图 6-5〈6.2 节 ) 的 
算法 选择 了 类 属性 的 焙 最 小 的 那个 节点 。 对 预测 结果 是 数值 的 模型 树 来 说 ， 只 要 简单 地 用 方 
差 来 替代 。 这 是 基于 相同 的 推理 : 方差 越 小 ， 子 树 越 浅 ， 规 则 越 短 。 算 法 的 其 余部 分 都 维持 
不 变 ， 用 模型 树 学 习 器 的 分 裂 选 择 法 和 修剪 策略 代替 决策 树 学 习 器 的 分 裂 和 修剪 。 因 模型 树 
的 叶 节 点 是 线性 模型 ， 相 应 地 ， 规 则 的 右边 也 将 是 线性 模型 。 

如 此 使 用 模型 树 产生 规则 集 有 一 点 要 加 以 说 明 : 就 是 模型 树 学 习 器 所 用 的 平滑 处 理 。 使 
用 经 平 请 处 理 的 模型 树 不 能 降低 最 终 的 规则 集 预 测 的 误差 。 这 也 许 是 因为 平滑 处 理 最 好 是 用 
于 连续 数据 ， 但 在 割 治 法 中 前 一 条 规则 所 禾 盖 的 数据 被 去 除了 ， 在 数据 分 布 上 留 下 了 空洞 。 
如 果 平 滑 要 进行 的 话 ， 必 须 在 规则 集 产生 后 实行 。 
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6.5.8 局 部 加 权 线 性 回归 

数值 预测 的 另 一 种 方法 就 是 局 部 加 权 线 性 回归 法 。 在 模型 树 中 ， 树 结构 将 实例 空间 分 隔 
成 不 同 区 域 ， 每 个 区 域 中 都 有 一 -个 线性 模型 。 实 际 上 是 训练 数据 决定 了 实例 空间 如 何 分 区 。 
局 部 加 权 回 归 却 是 在 预测 时 间 产 生 局 部 模型 的 ， 它 是 通过 赋予 测试 实例 的 近邻 实例 较 高 的 权 
值 来 实现 的 。 具 体 地 说 、 对 训练 实例 根据 它们 离 测试 实例 的 距离 来 加 权 ， 然 后 在 加 了 权 的 数 
据 上 进行 线性 回归 。 靠 近 测 试 实例 的 训练 实例 权 值 较 高 ， 远 离 测试 实例 的 权 值 较 低 。 换 句 话 
说 ， 是 为 某 个 具体 的 测试 实例 特制 一 个 线性 模型 ， 并 用 它 预测 这 个 测试 实例 的 类 值 。 

为 了 要 使 用 局 部 加 权 回 归 ， 必 须 为 训练 实例 决定 一 个 基于 距离 的 加 权 方 案 。 一 种 常规 选 
择 是 根据 训练 实例 离开 测试 实例 的 欧 几 里 得 距离 的 倒数 来 进行 加 权 。 另 -种 可 能 的 选择 是 利 
用 欧 几 里 得 距离 和 高 斯 核 函数 协作 来 决定 加 权 。 然 而 ， 没 有 证 据 证 明 加 权 方 案 的 选择 是 关键 。 
更 重要 的 是 用 于 衡量 距离 图 数 的 “ 平 疹 参数 ”( smoothing parameter) 的 选择 ， 距 离 要 和 这 个 
参数 的 倒数 相 乘 。 如 果 这 个 值 设 得 小 ， 只 有 非常 靠近 测试 实例 的 实例 才 会 得 到 显著 的 权 值 ; 
如 果 这 个 值 设 得 大 ， 则 更 多 远 距 离 的 实例 对 模型 的 建立 也 会 有 着 显著 影响 。 选 择 平滑 参数 的 
一 种 方法 是 将 其 设 定 为 离开 第 x 个 最 近邻 训练 实例 的 距离 ， 从 而 随 着 训练 实例 数量 增加 ， 这 个 
值 会 越 来 越 小 。k 值 的 最 佳 选择 依赖 于 数据 中 的 干扰 多 少 。 和 干扰 实例 存在 越 多 ， 越 多 的 近邻 实 
例 需要 被 包含 在 线性 模型 中 。 通 常 ， 合 适 的 平滑 参数 是 通过 交叉 验证 得 到 的 。 

像 模型 树 “ 样 ， 局 部 加 权 线 性 回归 法 可 以 接近 非 线性 函数 。 它 的 -个 主要 优点 就 是 非常 
适合 于 递增 学 习 : 所 有 训练 都 在 预测 时 间 完 成 ， 因 此 新 的 实例 可 以 随时 加 入 到 训练 集中 。 但 
正如 其 他 基于 实例 的 学 习 -- 样 ， 获 得 对 一 个 测试 实例 的 预测 会 很 慢 。 首 先 ， 要 扫描 训练 实例 
计算 它们 的 权 值 ， 然 后 再 对 这 些 实 例 实行 加 权 线 性 回归 。 另 外 ， 像 其 他 基于 实例 的 方法 --… 样 ， 
局 部 加 权 回归 几乎 不 能 提供 有 关 训练 数据 集 全 局 结构 的 信息 。 注 意 ， 如 果 平 滑 参数 是 基于 第 K 
个 近邻 实例 的 ， 并 且 加 权 函 数 赋予 远 距 离 实例 的 权 值 为 零 ， 使 用 4.7 节 中 讨论 的 tD 树 和 球 树 可 
以 令 寻 找 相关 近邻 实例 的 速度 提高 。 

局 部 加 权 学 习 并 不 只 局 限于 线性 回归 ， 它 可 应 用 于 任何 能 够 处 理 加 权 实 例 的 学 习 技 术 。 
特别 是 可 以 应 用 于 分 类 。 大 多 数 的 算法 都 很 易 调整 以 适应 处 理 权 值 。 诀 容 是 能 意识 到 (整数) 
权 值 可 以 模拟 成 创建 同一 实例 的 几 个 拷贝 。 每 当 学 习 算 法 计算 模型 使 用 一 个 实例 时 ， 就 假设 
这 个 实例 同时 有 人 恰当 数量 的 相同 实例 伴随 着 。 如 果 权 值 不 是 整数 、 这 点 也 同样 适用 。 比 如 在 
4.2 节 中 讨论 的 村 到 贝 叶 斯 算法 乘 以 源 自 实 例 权 值 的 合计 数 。 瞧 ， 你 拥有 了 - -个 可 以 用 于 局 部 
加 权 学 习 的 朴素 贝 叶 斯 法 版 本 。 

实践 证 明 局 部 加 权 的 朴素 贝 叶 斯 法 工作 非常 出 色 ， 比 朴素 贝 叶 斯 法 本 身 以 及 k 最 近邻 技术 
都 要 好 。 它 放宽 了 朴素 贝 叶 斯 固有 的 独立 假设 ， 与 更 为 复杂 的 增强 朴素 贝 叶 斯 法 进行 比较 ， 
也 能 获得 较 好 的 比较 结果 。 局 部 加 权 学 习 的 独立 假设 仅仅 是 在 近邻 实例 之 间 ， 而 不 像 标 准 的 
朴素 贝 呈 斯 是 在 整个 实例 空间 的 全 局 独立 假设 。 

原则 上 ， 局 部 加 权 学 习 也 可 以 应 用 到 决策 树 以 及 其 他 一 些 比 线性 回归 和 朴素 贝 叶 斯 更 为 
复杂 的 模型 。 但 是 ， 应 用 局 部 加 权 学 习 获 益 较 少 ， 因 为 它 从 根本 上 来 说 是 一 种 能 让 简单 模型 
更 具 灵 活性 的 方法 ， 是 通过 允许 简单 模型 接近 任意 目标 来 实现 的 。 如 果 基 本 学 习 算 法 已 经 能 
做 到 这 点 ， 便 没有 什么 理由 应 用 局 部 加 权 学 习 了 。 尽 管 如 此 ， 它 仍 可 以 改善 其 他 -- 些 简单 模 
型 ， 如 线性 支持 向 量 机 和 logistic 回 归 模 型 。 
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6.5.9 讨论 

回归 树 是 由 Breiman 等 (1984 年 ) 在 CART 系 统 中 介绍 的 。CART 是 “分 类 和 回归 树 ” 
(classification and regression trees )， 用 于 离散 类 的 决策 树 归纳 ， 这 和 C4.5 很 相像 ，C4.5 是 单 
独创 建 的 ， 作 为 用 于 归纳 回归 树 的 -种 方案 。 上 述 许多 技术 .如 处 理 名 词性 属性 的 方法 和 处 
理 残 缺 值 的 代理 机 构 ， 在 CART 中 都 包含 了 。 模 型 树 只 是 在 近期 才 出 现 的 ， 最 初 是 由 Quinlan 
(1992 年 ) 提出 的 。 利 用 模型 树 来 生成 规则 集 (虽然 不 是 局 部 树 )， 是 由 Hall 等 (1999 年 ) 探 
索 的 。 

模型 树 归 纳 并 不 像 决策 树 归 纳 那 样 通用 ， 部 分 是 因为 易于 理解 的 描述 (以 及 实施 ) 技术 
只 是 在 近年 才 有 的 (Wang 和 Witten，1997 年 )。 对 数值 预测 ， 神 经 网 络 更 为 常用 ， 嚼 然 神 经 
网 络 存在 着 缺点 ， 它 所 生成 的 模型 结构 不 明朗 以 及 不 能 帮助 理解 方案 的 本 质 所 在 。 即 便 现 在 
已 有 能 提供 可 理解 的 、 洞 察 神经 网 络 结构 的 技术 ， 内 部 表达 的 任意 性 意味 着 由 相同 数据 训练 
出 来 的 相同 网 络 体系 也 许 存在 着 戏剧 性 的 变异 。 将 所 归纳 的 函数 分 隔 成 线性 模块 ， 模 型 树 提 
供 了 可 复制 、 至 少 较 易 理解 的 一 种 表示 法 。 

有 很 多 不 同 的 局 部 加 权 学 习 方 法 。 例 如 ， 统 计 学 家 们 考虑 用 局 部 二 次 模型 代替 线性 模型 ， 
应 用 局 部 加 权 logistic 回归 来 处 理 分 类 问题 。 还 有 可 以 在 文献 中 找到 许多 潜在 的 不 同 的 加 权 和 
距离 函数 。Atkeson 等 (1997 年 ) 写 出 了 一 篇 关于 局 部 加 权 学 习 非 常 出 色 的 调研 报告 ， 主 要 是 
回归 问题 。Frank 等 (2003 年 ) 对 局 部 加 权 学 习 和 朴素 贝 叶 斯 法 结合 应 用 进行 了 评估 。 
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的 数据 点 都 被 赋予 最 靠近 的 察 类 中 心 ， 计 算 每 个 聚 类 中 数据 点 的 平均 值 作为 新 的 聚 类 中 心 ， 
如 此 不 断 重 复 直 至 察 类 不 再 变化 。 这 个 程序 只 有 当 事 先 知道 察 类 数目 才 可 行 ， 这 节 以 讨论 育 
类 数目 未 知 时 该 如 何 处 理 作为 开始 。 

接着 考察 两 种 不 像 均 值 那样 把 实例 分 成 不 相交 聚 类 的 技术 。 第 一 种 是 在 20 世 纪 80 年 代 末 
期 创建 的 包含 在 Cobweb (用 于 名 词性 属性 ) 和 Classit (用 于 数值 属性 ) 两 个 系统 中 的 递增 聚 
类 方法 。 这 两 个 系统 都 是 用 等 级 分 组 实例 ， 衡 量 的 是 聚 类 的 “质量 ”， 称 为 类 别 效用 
(category utility )。 第 二 种 是 -种 统计 学 聚 类 方法 ， 它 是 基于 不 同 概率 分 布 的 一 种 混合 模型 ， 
每 个 察 类 有 一 个 概率 分 布 。 它 对 实例 所 属 类 的 赋予 是 概率 性 的 ， 而 不 是 决定 性 的 。 我 们 将 要 
解释 一 些 基 本 技术 ， 然 后 介绍 -种 易于 理解 的 、 称 为 AutoClass 的 衰 类 方案 是 如 何 工作 的 。 


6.6.1 选择 聚 类 的 个 数 


假设 要 使 用 k 均 值 法 ， 但 聚 类 的 个 数 未 知 。-- 种 解决 方法 是 对 不 同 的 可 能 个 数 进 行 试验 ， 
看 看 哪个 最 好 ， 即 哪个 能 使 所 有 点 离开 它们 聚 类 中 心 的 距离 平方 的 总 和 达到 最 小 。 一 个 简单 
的 方法 是 从 一 个 给 定 的 最 小 个 数 开始 ， 或 许 是 上 = 1, 然后 一 直 试验 到 一 个 较 小 的 、 固 定 的 最 大 
值 ， 用 交叉 验证 法 找 出 最 好 的 个 数 。 由 于 k 均 值 法 很 慢 ， 使 用 交叉 验证 使 之 更 慢 ， 因 此 试图 对 
许多 可 能 的 K 值 进行 试验 不 太 可 行 。 注 意 ， 根 据 距离 平方 总 和 标准 来 决定 “最 佳 ” 聚 类 训练 数 
据 的 方法 ， 将 总 是 选择 和 数据 点 …- 样 多 的 聚 类 ! 为 了 抑制 选择 很 多 聚 类 的 方案 ， 必 须 应 用 诸 
如 在 5.10 节 中 所 述 的 最 短 描述 长 度 准则 ， 或 采用 交 又 验证 。 

另 一 种 可 能 方法 是 开始 先 找 出 很 少 几 个 聚 类 ， 然 后 决定 是 否 值得 再 将 它们 分 裂 。 你 可 选 
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能 取消 的 ， 并 且 每 个 部 分 的 分 裂 是 独立 考察 的 ， 那 么 计算 时 间 将 大 大 减少 。 分裂 府 类 的 一 种 
方法 是 在 变化 最 大 的 方向 、 距 离 察 类 中 心 一 个 标准 差 的 位 置 产生 一 个 新 的 种 子 ， 随 后 在 反方 
向 、 等 距 建 立 第 二 个 种 子 。( 如 果 速 度 太 慢 ， 另 一 种 方法 是 在 任意 方向 ， 选 择 一 个 聚 类 边界 盒 
的 距离 比例 项 。) 然后 运用 这 两 个 新 的 种 子 ， 对 聚 类 中 的 点 进行 上 均值 聚 类 。 

聚 类 分 裂 暂时 完成 ， 是 否 值 得 保留 分 裂 ， 或 者 原来 的 察 类 也 是 合理 的 ? 察看 所 有 点 离开 
聚 类 中 心 距离 平方 总 和 是 没有 用 的 ， 两 个 子 聚 类 的 总 和 一 定 是 较 小 的 。 创 建 一 个 额外 的 京 类 ， 
会 招致 乱 罚 ， 这 是 最 短 描述 长 度 准 则 的 工作 范畴 。 利 用 这 个 原理 来 察看 详细 说 明 两 个 新 聚 类 
中 心 以 及 每 个 点 与 它们 之 间 关 系 所 需 的 信息 ， 是 否 超过 详细 说 明 原 先 的 聚 类 中 心 以 及 所 有 点 
与 它们 之 间 关 系 所 需要 的 信息 。 如 果 是 超过 了 ， 那 么 新 的 聚 类 是 徒劳 的 ， 将 被 放弃 。 

如 果 分 裂 被 保留 下 来 ， 试 着 对 每 个 新 的 聚 类 进一步 分 烈 。 这 个 过 程 一 直 继 续 到 不 再 有 值 
得 保留 的 分 裂 。 

将 这 个 送 代 聚 类 过 程 和 4.8 节 中 提出 的 4D 树 或 球 树 数据 结构 结合 起 来 ， 可 在 实现 过 程 中 获 
得 额外 的 效率 。 那 样 ， 是 从 根 节点 沿 着 树 一 直 向 下 得 到 数据 点 。 当 考虑 分 裂 一 个 聚 类 时 ， 没 
有 必要 车 虑 整个 树 ， 只 需 考 虑 这 个 聚 类 所 覆盖 的 部 分 。 例 如 ， 当 决定 是 否 分 裂 图 4-16a 左 下 方 
CHA PI) 的 聚 类 时 ， 只 需 考虑 图 4-16b 中 的 树 节点 A 和 B ， 因 为 节点 C 与 这 个 聚 类 无 关 。 


6.6.2 WIERA 


k 均 值 算法 对 整个 数据 集 进 行 迭 代 运算 直至 收效 ， 而 下 面 考察 的 聚 类 方法 则 是 递增 型 工作 
的 ， 它 是 一 个 实例 接 … 个 实例 进行 的 。 在 任何 阶段 , 聚 类 在 叶 节 点 包含 实例 形成 … 个 树 结构 ， 
根 节 点 代表 着 整个 数据 集 。 开始 时 树 只 有 一 个 根 节 点 。 实 例 一 个 个 加 进来 ， 树 则 在 每 个 阶段 
进行 适当 的 更 新 。 更 新 也 许 只 是 寻找 恰当 的 位 置 来 放置 代表 新 实例 的 叶 节 点 ， 或 者 是 要 重建 
受到 新 实例 影响 的 部 分 树 。 决 定 怎 样 更 新 以 及 在 哪里 更 新 的 关键 是 称 为 类 别 效 用 的 量 ， 它 衡 
量 将 实例 集 划 分 成 聚 类 的 总 体质 量 。 将 在 下 一 节 中 详细 讨论 它 是 怎样 定义 的 。 先 来 看 -下 聚 
类 算法 是 如 何 工作 的 。 

这 个 过 程 最 好 用 一 个 例子 来 说 明 。 再 次 使 用 大 家 熟悉 的 天 气 数据 ， 但 不 包括 属性 玩 。 为 
了 便于 跟踪 程序 ，14 个 实例 分 别 被 标 为 a, b, c, , n (如 表 4-6)。 出 于 兴趣 ， 我 们 包含 了 类 标 
yes 或 po， 尽管 必须 强调 对 于 这 个 人 造 数 据 集 来 说 ， 假 设 实例 的 两 个 类 必须 是 两 个 完全 分 隔 的 
类 别 范 畴 几乎 是 没有 什么 理由 。 图 6-17 展 示 了 聚 类 过 程 中 出 现 的 一 些 重要 情形 。 

一 开始 ， 当 新 的 实例 被 纳入 结构 中 时 ， 它 们 各 自 形成 顶层 总 聚 类 下 的 子 聚 类 。 每 个 新 实 
例 都 被 试探 着 放 入 现 有 的 叶 节 点 ， 然 后 对 顶层 节点 的 子 节点 集 进行 类 别 效用 评估 ， 看 看 这 个 
叶 节 点 是 否 是 新 实例 的 一 个 好 的 “接受 体 ”(host)。 对 前 五 个 实例 来 说 ， 没 有 这 样 的 接受 体 : 
最 好 根据 类 别 效用 让 每 个 实例 形成 一 个 新 的 叶 节 点 。 到 第 六 个 实例 终于 可 以 形成 一 个 聚 类 了 ， 
将 新 实例 /和 旧 实 例 ( 即 接受 体 ) e 结 合 在 一 起 。 再 回 过 头 来 看 表 4-6 (4.3 节 )， 你 将 发 现 第 五 
个 和 第 六 个 实例 的 确 非常 相似 ， 只 有 乔 风 属性 值 不 同 (还 有 这 里 忽略 的 玩 属性 值 不 同 )。 接 下 
来 一 个 实例 8 被 置 人 同一 个 聚 类 中 ( 它 和 e 比 较 ， 只 是 阴 晴 属性 值 不 同 )。 随 之 而 来 的 是 再 次 豪 
类 运行 过 程 。 首 先 ， 对 g 进 行 评估 ， 看 看 根 节点 的 五 个 子 节点 中 哪个 能 成 为 最 佳 接受 体 ， 结 果 
是 已 经 成 为 察 类 的 最 右边 的 那个 子 节点 。 然 后 运用 聚 类 算法 将 这 个 节点 作为 根 节点 ， 对 它 的 
两 个 子 节点 进行 评估 ， 看 哪个 是 较 好 的 接受 体 。 在 这 个 例子 中 ， 根 据 类 别 效 用 衡量 结果 ， 增 
加 新 实例 作为 一 个 子 罕 类 是 最 好 的 。 
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图 6-17 对 天 气 数据 的 聚 类 


如 果 按 这 样 的 方法 继续 下 去 ， 不 会 有 从 根本 上 重建 树 的 机 会 那么 最 终 的 聚 类 结果 会 过 
度 依赖 于 实例 的 排序 。 为 了 避免 这 点 ， 有 -.- 些 重建 的 规则 、 在 图 6-17 中 展示 的 下 P, MX 
例 h 加 入 进来 时 ， 你 便 能 看 到 。 这 时 ， 两 个 现存 的 节点 合并 成 -个 聚 类 : 在 新 实例 A 添 加 进来 
之 前 ， 节 点 a 和 d 被 合并 。 -种 实现 的 方法 是 考虑 所 有 成 对 他 点 的 合并 ， 评 估 每 对 的 类 别 效 用 。 
然而 ， 计 算 耗 费 很 大 ， 如 果 在 每 个 新 实例 添加 时 都 运行 的 话 、 会 带 来 许多 重复 工作 。 

作为 赫 代 ， 另 -种 方法 是 每 当 为 寻找 合适 的 接受 体 而 对 某 层 的 节点 进行 扫描 时 ， 同 时 记 
录 下 最 适合 的 节点 (能 对 这 层 的 分 裂 产生 最 大 类 别 效用 的 节点 ) 和 第 一 适合 节点 。 最 好 的 那 
个 作为 新 实例 的 接受 体 (除非 新 实例 自身 作为 个 聚 类 会 更 好 )。 但 在 将 新 实例 加 入 接受 体 之 
前 ， 先 元 虑 接受 体 和 第 二 适合 节点 的 合并 。 在 本 例 中 ，a 是 首选 接受 体 而 d 是 第 二 适合 节点 。 
对 a 和 d 的 合并 进行 评估 ，、 结 果 是 合并 可 以 提高 类 别 效用 。 因 此 这 两 个 节点 合并 起 来 ， 产 生 在 有 
被 加 入 之 前 的 图 6-17 中 第 五 个 分 层 结构 。 然 后 ， 考 虑 将 1 放置 在 新 的 、 经 合并 的 节点 ， 最 好 的 
结果 是 如 图 所 示 将 它 作为 ATRX. 

与 合并 相反 的 操作 称 为 分 裂 ， 也 被 实施 ， 虽 然 在 这 个 例子 中 没有 涉及 。 每 当 鉴 定 出 最 好 
的 接受 体 ， 而 合并 又 证 明 无 益处 时 ， 便 苞 虚 对 接受 体 节 点 的 分 裂 。 分 裂 的 实现 正好 与 合并 相 
反 ， 用 子 节点 来 替代 这 个 节点 。 例 如 ， 要 分 裂 图 6-17 中 第 四 个 分 层 结构 的 最 右 侧 的 节点 ， 便 
将 叶 节点 e、j 和 8 提升 一 县 ， 使 它们 与 G、b、c 和 d 成 为 同胞 节点 。 合 并 和 分 裂 为 弥补 由 于 不 适 
当 的 实例 次 序 所 引起 的 错误 选择 ， 提 供 了 -- 种 递增 重建 树 的 方法 。 
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14 个 实例 最 终 的 分 层 结构 如 图 6-17 最 后 所 示 。 有 两 个 主要 的 豪 类 ， 每 个 下 面 还 有 子 聚 类 。 
如 果 play 和 don't play 两 种 特性 确实 代表 了 数据 的 内 在 特性 ， 那 么 期 望 的 结果 是 每 种 各 有 一 个 
聚 类 。 从 图 中 看 不 出 这 样 清晰 的 结构 ， 虽 然 IER) 有 雅 量 的 眼力 通过 将 底层 标 有 yes 的 实例 
组 合 在 :起 ， 同 样 将 标 有 no 的 实例 组 合 在 - 起， 或 许 能 辨别 出 一 些 细微 倾向 。 对 聚 类 做 些 仔 
细 的 分 析 会 揭示 出 些 异常 情况 。( 如 果 你 要 仔细 分 析 ， 表 4-6 会 有 所 帮助 . ) 例如 ， 实 例 a 和 b 
实际 上 是 非常 相像 的 、 而 它们 却 处 在 树 的 两 个 完全 不 同 的 部 分 。 实 例 b5 最 终 和 与 它 的 相似 度 不 
galt) KARE 一起。 实例 a 最 终 同 实例 4 和 h 聚 在 一 起 ， 而 a 与 4 的 相似 度 完 全 不 及 a 与 5 的 相似 
度 。 实 例 a 和 4b 被 分 开 的 原因 是 如 前 所 述 a 和 d 合 并 了 ， 理 由 是 它们 分 别 是 实例 h 的 最 佳 和 次 佳 接 
受 体 。 不 幸 的 是 a 和 4b 是 最 先 的 两 个 实例 : 如 果 两 个 中 的 任何 一 个 再 晚 一 点 出 现 ， 也 许 它 们 最 
终 就 会 聚 在 一 起 了 。 后 续 的 分 裂 和 重新 合并 也 许 能 矫正 这 类 异常 ， 但 在 这 个 例子 中 却 没有 能 
矫正 。 

对 数值 属性 可 采用 完全 相同 的 方法 。 类 别 效 用 也 同样 对 数值 属性 有 所 定义 ， 基 于 对 属性 
的 平均 值 和 标准 差 的 估计 。 详 细 内 容 在 下 节 中 论述 。 然 而 有 一 个 问题 必须 在 这 里 提出 : 当 估 
计 某 个 节点 的 某 个 属性 的 标准 差 时 ， 如 果 这 个 节点 只 包含 :个 实例 ， 结 果 为 零 ， 只 含 一 个 实 
例 的 情况 是 较 常 出 现 的 .不 幸 的 是 零 方差 在 类 别 效 用 公式 里 会 产生 无 穷 大 。 一 个 简单 的 启发 
式 解决 方案 是 给 每 个 属性 强加 一 个 最 小 方差 。 由 于 没有 一 种 衡量 法 是 绝对 精确 的 ， 强 加 一 个 
最 小 值 还 是 合理 的 : 它 代 表 了 对 一 个 样本 的 测量 误差 。 这 个 参数 称 为 灵敏 度 (acuity). 

图 6-18a 在 上 部 分 展示 了 对 部 分 化 尾 化 数据 集 (30 个 实例 ， 每 个 类 各 有 10 个 实例 ) RAB 
增 算法 聚 类 的 分 层 结构 。 在 顶层 有 两 个 府 类 ( 即 代表 整个 数据 集 的 节点 的 子 聚 类 )。 第 一 个 包 
Hi GAL virginica Al fe 4E versicolor, # -A AWS BE setosa, BEE setosa 本 身 又 分 烈 
RS PRK. Hep -个 含 4 个 品种 而 另 :个 含 6 个 。 另 -个 顶层 聚 类 分 裂 成 三 个 子 聚 类 ， 每 
个 都 舍 有 相当 复杂 的 结构 。 A. PRS BAIL versicolor， 除 了 -个 例外 ， 即 每 个 都 
含有 “个 离 群 的 勤 尾 花 virginica; 第 -个 子 聚 类 只 含 virginica 。 这 是 对 恋 尾 花 数 据 相当 令 人 
满意 的 聚 类 结果 : 它 显示 了 这 三 个 种 类 并 不 是 人 为 的 ， 而 是 反映 在 数据 上 存在 真实 的 差异 。 
但 这 还 是 :个 有 点 过 于 乐观 的 结论 ， 因 为 为 得 到 这 个 适当 的 分 类 ， 必 须 对 灵敏 参数 的 设 定做 
相当 多 的 试验 。 

以 此 方案 察 类 ， 使 每 个 实例 产生 一 个 叶 节 点 。 这 使 得 合理 大 小 的 数据 集 不 可 抗拒 地 会 形 
成 一 个 很 大 的 分 层 结构 。 从 某 种 意义 上 说 ， 即 相当 于 对 数据 集 的 过 度 拟 合 。 因 此 第 二 个 参数 
称 为 截止 (cutoff ) 参数 , 用 来 限制 结构 增长 。 某 些 实例 被 断定 与 其 他 实例 足够 相似 的 则 不 崔 
有 它们 自己 的 子 节点 ， 这 个 参数 就 是 来 掌控 这 个 相似 度 阀 值 。 截 止 参 数 是 根据 类 别 效用 来 制 
定 ， 当 加 入 “个 新 的 节点 所 带 来 的 类 别 效用 增值 达到 足够 小 时 ， 就 将 这 个 节点 截 掉 。 

图 6-18b 展 示 的 同样 是 划 尾 花 数 据 ， 但 应 用 了 截止 参数 聚 类 。 许 多 叶 节 点 含 多 个 实例 ， 它 
们 的 父 节 点 被 截 掉 了。 由 于 -… 些 详情 被 抑制 了 ， 三 种 荧 尾 花 的 分 区 从 这 个 结构 图 中 就 比较 容 
易 看 了 。 同 样 ， 为 得 到 这 个 聚 类 结果 ， 必 须 对 截止 参数 的 设 定做 一 些 试验 ， 而 且 事实 上 截止 
越 是 强烈 ， 将 导致 越 不 能 邻 人 满意 的 聚 类 。 

如 果 使 用 含 150 个 实例 的 完整 草 尾 花 数 据 集 ， 得 到 的 聚 类 结果 是 相似 的 。 但 是 ， 聚 类 结果 
还 是 有 赖 于 实例 的 次 序 ， 图 6-18 是 变更 了 输入 文件 的 三 种 昔 尾 花 的 次 序 所 得 到 的 结果 。 如 果 
所 有 芳 尾 花 setosa 第 -- 个 出 现 ， 接 着 是 所 有 的 葛 尾 花 versicolor 和 所 有 的 六 尾 花 virginica， 聚 类 
结果 则 是 相当 差 的 。 
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6.6.3 类 别 效用 

现在 求 看 怎样 计算 类 别 效用 ， 它 衡量 将 实例 集 分 隔 成 聚 类 的 总 体质 量 。 在 5.9 节 我 们 从 理 
论 上 上 学习 了 怎样 应 用 最 短 描述 长 度 原 理 来 衡量 察 类 的 质量 。 类 别 效 用 不 是 以 MDL 为 基础 的 ， 
而 是 一 个 类 似 于 定义 在 条 件 概 率 上 的 -次 损失 函数 。 

类 别 效用 的 定义 看 起 来 是 相当 令 人 逮 怖 的 : 
c) 》 Pic ay, > (Pria, =v, 1C, F -Pria =v, 1) 
aa k 





CUC. Cr, 


这 里 Ci. Cy C ERP RK, SPE GSR) 是 针对 这 些 聚 类 的 ; 接 下 来 的 那个 内 层 总 
和 是 针对 属性 的 总 和 ; a 代表 第 :个 属性 ， 它 的 值 有 ww vi. …, ww ， 一 共 要 处 理 / 个 。 注 意 概率 
本 身 是 总 和 所 有 实例 得 到 的 : AREAS. HAM. 
259 如 果 多 花 点 时 间 分 析 这 个 表达 式 ， 便 能 深入 理解 它 的 意义 。 聚 类 的 意义 在 于 它 有 利于 更 
260| 好 预测 聚 类 中 实例 的 属性 值 , 即 在 聚 类 C, 中 的 某 个 实例 ， 属 性 a; 值 为 w 的 概率 Prfa = w | C], 
相对 于 概率 Prla = vi ] 来 说 ， 应 是 更 好 的 估计 ， 因 为 它 考虑 实例 所 在 的 聚 类 。 如 果 不 能 从 这 个 
信息 中 获得 帮助 的 话 、 则 说 明 聚 类 并 不 理想 。 因 此 上 述 表达 式 多 层 总 和 的 内 部 所 计算 的 就 是 
这 个 信息 所 能 提供 的 帮助 量 ， 它 是 根据 这 两 个 概率 平方 的 差 值 来 衡量 的 。 这 并 不 是 非常 标准 
WE Jy (squared-difference) 的 衡量 方法 ， 因 为 那 是 总 和 差 值 的 平方 (能 产生 对 称 结果 )， 
而 现在 的 计算 是 总 和 平方 的 差 值 ( 虽然 适合 但 不 是 对 称 的 )。 里 面 的 两 层 总 和 符 对 所 有 属性 、 
所 有 可 能 属性 值 的 概率 平方 的 差 进行 总 和 计算 。 然 后 外 面 的 那个 总 和 符 对 所 有 的 聚 类 ， 利 用 
它们 各 自 的 概率 进行 加 权 ， 进 行 总 和 计算 。 
最 后 总 数 除 有 点 难以 说 明理 由 .是 因为 已 经 总 和 所 有 类 的 平方 差 。 类 别 效用 提供 “每 
个 察 类 ”的 指标 数 来 阻止 过 度 拟 合 。 否 则 的 话 ， 由 于 概率 是 由 总 和 适当 的 实例 获得 的 ， 如 每 
个 实例 都 能 处 于 合适 自己 的 豪 类 ， 将 获得 非常 好 的 类 别 效 用 。 那 么 ， 对 属性 a, 来 说 ， 当 属性 
值 为 聚 类 C 中 单个 实例 实际 的 a, 属性 值 时 ，Prfa; = vj 1 C,] 为 1， 而 对 于 其 他 属性 值 这 个 概率 
都 为 0、 类 别 效用 计算 公式 的 分 子 最 终 变 为 


n— >>, Prla, =v,) 
这 里 ?是 属性 的 总 个 数 。 这 是 分 子 所 能 达到 的 最 大 值 ， 如 果 在 类 别 效用 计算 公式 中 不 除 以 大 ， 
便 没 有 理 巾 牛 成 含有 “全 以 上 成 员 的 察 类 。 把 这 个 系数 看 成 基本 的 过 度 拟 合 避 免 措施 是 最 好 
不 过 了 。 
这 个 类 别 效 用 公式 只 适合 于 名 词性 属性 。 然 而 ， 假 设 属性 是 正 态 分布 的 ， 已 给 出 (观察 
所 得 ) 平均 值 L 和 标准 差 5， 很 容易 将 其 扩展 应 用 于 数值 属性 。 属 性 a 的 概率 密度 函数 为 
faz exp “| 


V2no 20 








属性 值 概 率 的 平方 总 和 计算 可 模拟 为 
> Pria, =v, F © f f(a} da, =e 


no, 


这 里 o; 是 属性 a; 的 标准 差 。 因 此 对 数值 属性 ， 我 们 从 数据 中 来 估计 标准 差 ， 所 用 数据 既 包 含 
某 个 衰 类 中 的 数据 (GEC: ) 又 包含 所 有 聚 类 中 的 数据 (得 到 o,)， 将 这 些 运 用 到 类 别 效用 公 
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式 中 : 
CUC, CGC) = LT PC 了 Jt 
l 2 k k i + 2Vn i 6, 5, 


XNE, ANREPI MEENA E OIEA ENE T: A A R 
计算 结果 为 无 穷 大 。 为 每 个 属性 强制 预 设 -个 最 小 方差 ， 即 灵敏 度 ， 是 一 个 简单 的 问题 解决 
方法 。 

6.6.4 基于 概率 的 聚 类 

上 述 局 发 式 聚 类 的 某 些 缺 点 已 经 很 明显 : 类 别 效 用 公式 中 为 避免 过 度 拟 合 所 须 采 用 的 k 个 
任意 分 区 ， 需 要 提供 -个 人 为 的 察 类 标准 差 最 小 值 . 以 及 为 避免 每 个 实例 成 为 一 个 察 类 的 特 
定 的 截止 值 。 另 外 ， 递 增 算法 本 身 所 带 来 的 不 确定 性 ， 即 结果 依赖 于 实例 顺序 达到 何 种 程 
E? 诸如 合并 、 分 裂 这 样 的 局 部 重建 操作 ， 是 否 足 以 扭转 由 不 好 的 实例 次 序 所 带 来 的 糟糕 的 
初始 决定 ”最 终结 果 是 否 代表 类 别 效用 的 局 部 最 大 值 ? 无 法 知道 最 终 的 设 定 离 全 局 最 大 值 到 
底 有 多 远 、 重 复 几 次 聚 类 过 程 然 后 选择 最 好 的 标准 技巧 推翻 了 这 个 算法 的 递增 本 性 。 最 后 ， 
结果 亦 不 能 问 避 哪个 是 最 好 的 坠 类 这 个 实质 性 的 问题 。 图 6-18 中 的 聚 类 有 那么 多 ， 就 像 要 从 
糠 中 筛 出 小 麦 那 么 困难 。 

解决 聚 类 问题 的 一 个 更 为 理论 性 的 统计 学 方法 可 以 克服 部 分 上 述 缺 点 。 从 概率 的 角度 看 ， 
聚 类 的 日 标 是 寻找 给 定数 据 的 最 有 可 能 的 聚 类 (不 可 避免 地 要 用 到 先 验 期 望 值 )。 由 于 任何 有 
限 数量 的 证 据 都 不 足以 对 某 件 事 做 完全 肯定 的 结论 ， 因 此 ， 实 例 甚至 是 训练 实例 也 不 能 绝对 
地 被 分 在 这 个 聚 类 或 那个 聚 类 ， 而 应 当 说 实例 都 以 - - 定 的 可 能 性 分 属于 每 个 肾 类 。 这 有 助 于 
消除 与 那些 武断 而 快速 的 判定 方案 相关 联 的 脆弱 性 。 

统计 京 类 的 基础 是 建立 在 一 个 称 为 有 限 混 合 (finite mixtures) 的 统计 模型 上 的 。 混 合 是 
指 用 K 个 概率 分 布 代 表 k 个 聚 类 ， 掌 控 着 聚 类 成 员 的 属性 值 。 换 名 话说 ， 对 其 个 具体 实例 ， 每 
个 分 布 会 给 出 假设 它 实 属 这 个 聚 类 ， 实 例 具 有 某 种 系列 属性 值 的 概率 。 每 个 聚 类 都 有 不 同 的 
分 布 。 任 何 具 体 实 例 “ 实 际 上 ”属于 且 只 属于 一 个 聚 类 ， 但 不 知 是 哪个 。 最 后 … 点 ， 各 个 聚 
类 并 不 是 间 等 可 能 的 ， 存 在 某 种 反映 它们 相对 总 体 数量 的 概率 分 布 。 

最 简单 的 有 限 混合 情况 是 只 有 一 个 数值 属性 ， 每 个 察 类 是 呈 高 斯 或 正 态 分 布 ， 但 有 不 同 
的 平均 值 和 方差 。 豪 类 问题 是 获得 一 系列 的 实例 ， 这 时 每 个 实例 只 是 一 个 数字 和 一 个 事先 设 
定 的 察 类 数目 ， 计 算出 每 个 聚 类 的 平均 值 和 方差 ， 以 及 聚 类 之 问 的 总 体 分 布 。 混 合 模型 将 几 
个 正 态 分 布 组 合 起 来 ， 它 的 概率 密度 函数 看 起 来 像 一 组 山脉 ， wenn -个 组 成 部 分 。 

图 6-19 展 示 了 一 个 简单 的 例子 。 图 中 有 两 个 聚 类 A 和 B ， 每 个 都 呈正 态 分 布 ， 聚 类 A 的 平 
SNA n Mo, RADLPSMAFBL, 和 6，， 闪 这些 分布 中江 慑 入 环 ，A 的 提取 
BER AP, ，B 的 提取 概率 为 Ps (Pi+ Pa=1)， 得 到 如 疼 所 列 的 数据 集 。 现 在 ， 想 象 所 给 的 数据 
$e RMA. HAR. RE RIS PER. Hi O Ha Oy Mpa (参数 ps 可 以 直接 从 
pa 计算 得 到 )。 这 就 是 有 限 混 合 问题 。 


如 末 知 道 每 个 实例 是 由 哪 种 分 布 而 来 ， 便 很 容易 找到 5 个 参数 值 ， 只 要 使 用 下 面 的 公式 ， 


分 别 对 A 和 B 两 个 样本 估计 平均 值 及 标准 差 
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_ XI 十 X ++ +X, 


n 


o? = STH + AY tt, 


n-i 


: (第 二 个 公式 分 母 用 n - 1 而 不 用 "是 一 种 取样 技术 : 在 实践 中 如 用 "几乎 没有 什么 差别 。 ) 这 里 
xx, 是 取 自 分 布 A 或 B 的 样本 。 和 欲 估计 第 5 个 参数 mm， 只 要 计算 聚 类 A 所 含 实例 数 占 实例 
总 数 的 比率 。 


| 
i 
i 
i 


如 果 5 个 参数 已 知 ， 要 找 出 某 个 给 定 实例 来 自 每 种 分 布 的 概率 就 很 简单 了 。 给 定 实例 r， 
它 属 于 聚 类 A 的 概率 是 








数据 
A 51 B 62 B 64 A 48 A 39 A 51 
A 43 A 47 A 51 B 64 B 62 A 48 
B 62 A 52 A 52 A 51 B 64 B 64 
B 64 B 64 B 62 B 63 A 52 A 42 
A 45 A 51 A 49 A 43 B 63 A 48 
A 42 B 65 A 48 B 65 B 64 A 41 
A 46 A 48 B 62 B 66 A 48 
A 45 A 49 A 43 B 65 B 64 
A 45 A 46 A 40 A 46 A 48 

a) 

模型 

A B 

30 40 50 60 70 


Ha = 50, 0,=5,Py=0.6 jp=65,08=2,pe=0.4 
b) 
图 6-19 一 个 二 类 问题 的 混合 模型 


Pr[xlA]-PrtA] _ f(x; Hs,04)ps 


Pr[Aix]= 
Prix] Pr[ x} 


这 里 ，f (x; Wy .0,) BE RKAN EAD Hi we, BP: 
_(a-ny 


x; u, 0)= -=e 2 
f(x; u, 0) Tino 


分 母 Pr[x] 将 消失 计算 分 子 Pr[Alx] 和 Pr[Blx]， 然 后 要 除 以 两 者 之 和 进行 正常 化 。 整 个 过 程 正 
如 4.2 池 中 朴素 贝 叶 斯 学 习 方案 对 数值 属性 所 用 的 处 理 方法 。 那 里 讨论 中 所 作 的 说 明 在 这 里 也 
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同样 适用 。 严 格 地 说 ， 广 (xx: J, as ) 并 非 是 概率 Pr[xIA]，x 等 于 任何 具体 数值 的 概率 为 零 ， 然 而 
正常 化 过 程 使 得 最 终 的 结果 是 正确 的 。 注 意 最 终结 果 不 是 某 个 具体 的 聚 类 ， 而 是 x 属 于 A 和 B 
的 概率 。 ， 
6.6.5 EM 算法 

问题 是 既 不 知道 每 个 训练 实例 来 自 哪个 分 布 ， 也 不 知道 混合 模型 的 5 个 参数 值 。 因 此 ,我 
们 采纳 k 均 值 诊 类 算法 的 程序 ， 进 行 选 代 。 从 对 5 个 参数 值 进行 初始 猜测 开始 ， 用 初始 猜测 值 
对 每 个 实例 进行 聚 类 概率 计算 ， 用 这 些 概率 对 参数 进行 重新 估计 、 然 后 重复 此 过 程 。( 如 果 愿 
意 ， 也 可 以 从 对 每 个 实例 的 类 进行 初始 猜测 开始 。 ) 这 种 方法 称 为 期 望 -最 大 化 (expectation- 
maximization ) ， 简 称 EM 算法 。 第 一 步 ， 计 算 聚 类 概率 ( 即 “ 期 望 的 ”类 值 ) 便 是 “期 
望 ”; 第 二 步 ， 计 算 分 布 参数 ， 即 对 给 定数 据 的 分 布 进行 似 然 “ 最 大 化 ”处 理 。 

考虑 到 已 知 的 只 是 每 个 实例 所 属 聚 类 概率 而 非 聚 类 本 身 ， 因 此 必须 对 参数 估计 公式 稍 许 
做 一 点 调整 。 这 些 概率 作用 就 像 是 权 值 。 如 w; 是 实例 i 属于 罕 类 A 的 概率 ， 聚 类 A 的 平均 值 和 
标准 差 是 


_ WX + W 2X) + 十 Wi 





Ha 
w twt +w, 


2 2 2 
o? = w(x, -M0) +w,(X -H) +--+, (Xn H) 
à w +w + 二 Ww 





这 里 x 不 单 是 属于 聚 类 A 的 实例 ， 而 是 包括 所 有 的 实例 。( 这 和 6.6 节 所 列 的 估算 标准 差 公 式 有 

些许 不 同 。 从 专业 技术 上 来 说 ， 这 是 -个 方差 的 “最 大 似 然 ”估计 器 ， 而 6.6 节 所 列 的 是 一 个 

“无 偏 ” 估 计 器 。 它 们 之 间 的 差别 在 实践 中 并 不 重要 。) 
现在 来 考虑 怎样 终止 迭代 。K 均 值 算法 是 当 实例 的 类 值 在 下 一 轮 循环 中 没有 变化 时 即 终止 ， 

即 达到 一 个 “固定 点 "。 在 EM 算法 中 ,情况 并 非 如 此 简单 ， 算 法 会 向 某 个 固定 点 收敛 但 是 却 

不 能 真正 达到 这 个 点 。 然 而 可 以 通过 给 定 5 个 参数 值 来 计算 数据 集 数据 的 总 体 似 然 ， 看 出 它 的 - 

靠近 程度 。 总 体 似 然 是 将 单个 实例 i 的 概率 相 乘 得 到 的 : 

[pa Prix, 1 41+ ps Prix; |B) 


a 


这 里 聚 类 A 和 聚 类 B 的 概率 是 由 正 态 分 布 国 数 /xz; 几 O 决 定 的 。 这 个 总 体 似 然 是 对 聚 类 “良好 性 - 
的 一 种 衡量 ， 在 EM 的 每 次 迭代 中 不 断 上 升 。 这 里 又 出 现 了 x 为 某 个 具体 数值 的 概率 等 于 f (x; 
Ho ) 的 技术 难题 ， 由 于 没有 对 概率 进行 正常 化 操作 ， 这 个 影响 并 没有 消失 。 结 果 是 上 面 的 似 然 
表达 式 代表 的 不 是 概率 ,不 必 - 一 定 要 在 0 和 1 之 间 。 然 而 ， 它 的 大 小 仍然 反映 了 聚 类 质量 的 好 坏 。 
在 实现 中 -- 般 取 它 的 对 数 : 只 要 计算 每 个 组 成 部 分 的 对 数 总 和 ， 避 免 了 相 乘 的 计算 。 总 体 结论 ， 
还 是 保持 不 变 ， 循 环 迭 代 直 到 对 数 似 然 (log-likelihood) 的 增值 可 忽略 不 计 。 例 如 ， 在 一 个 实 
际 的 实现 中 ， 可 以 循环 迭代 直至 出 现 连续 10 次 迭代 前 后 两 轮 对 数 似 然 的 差 值 小 于 10 “。 一 般 ， 
来 说 ， 前 面 几 轮 迭代 的 对 数 似 然 会 急剧 上 升 ， 然 后 快速 收敛 于 某 个 几乎 是 固定 的 点 。 | 

虽然 EM 算法 能 保证 收敛 于 某 个 最 大 值 ， 但 也 许 只 是 局 部 最 大 值 而 非 全 局 最 大 值 。 为 了 能 ， 
有 机 会 得 到 全 局 最 大 值 ， 整 个 过 程 必须 使 用 不 同 的 初始 猜测 参数 值 重 复 几 次 。 可 以 用 总 体 对 . 
数 似 然 数 值 来 比较 不 同 的 参数 配置 ， 只 要 选择 其 中 最 大 的 。 
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6.6.6 扩展 混合 模型 

已 经 看 了 含 两 个 高 斯 分 布 的 混合 模型 ， 现 在 来 券 虑 -下 怎样 将 其 扩展 到 更 现实 的 情况 中 。 
基本 方法 是 相同 的 ， 但 由 于 数学 表达 更 令 人 恐怖 ， 在 这 里 就 不 全 面 展 开 了 。 

只 要 正 态 分 布 数量 Kk 事先 已 知 、 将 适用 于 二 类 问题 的 算法 转变 为 适合 解决 多 类 问题 是 非常 
直截了当 的 。 

只 要 存在 属性 独立 假设 , 适合 于 单个 属性 实例 的 模型 可 以 扩展 为 适合 于 多 个 属性 实例 的 
模型 。 就 像 朴 素 贝 叶 斯 方法 那样 ， 将 实例 每 个 属性 的 概率 相 乘 得 到 这 个 实例 的 联合 概率 。 

当 已 知 数 据 集 含 有 关联 属性 ， 独 立 假设 便 不 再 成 立 。 两 个 属性 可 用 二 维 正 态 分 布 建立 联 
合 模型 ， 短 个 分 布 有 各 自 的 平均 值 ， 但 采用 含 4 个 数值 参数 的 “ 协 方差 阵 ”(covariance matrix) 
来 替换 两 个 标准 差 。 有 标准 的 统计 技术 用 以 估计 实例 的 类 概率 ， 已 知 实例 和 类 概率 可 以 估计 
出 平均 值 和 协 方差 阵 。 对 多 个 关联 属性 的 、 可 以 使 用 多 维 分 布 来 处 理 。 参 数 的 数量 随 着 联合 
属性 数量 的 平方 而 增加 。 对 于 n 个 独立 属性 ， 有 2n 个 参数 ， 各 含 -个 平均 值 和 -~… 个 标准 差 。 对 
于 n 个 共 变 属性 (covariant attributes )， 有 n+n (n 十 1)/2 个 参数 ， 各 含 一 个 平均 值 和 一 个 n x nth 
方差 阵 ， 这 个 和 矩阵 是 对 称 的 ， 办 此 有 n(n+ 1/2 个 不 同 的 数值 。 像 这 样 的 参数 数 基 增长 将 造成 
严重 的 过 度 拟 合 ， 我 们 将 在 下 而 讨论 。 

为 了 适应 名 词性 属性 ， 必 须 放弃 正 态 分 布 。 对 -个 含有 v 个 可 能 值 的 名 词性 属性 ， 用 v 个 
数字 来 代表 每 种 值 的 概率 。 对 每 个 类 需要 有 不 同 的 数字 组 合 ; 总 共有 ky 个 参数 。 这 个 情形 同 
朴素 贝 叶 斯 方法 很 相似 。 对 应 的 期 望 和 最 大 化 这 两 个 步骤 同 先前 所 述 的 操作 是 …- 样 的 。 期 望 : 
给 定 分 布 参数 ， 对 每 个 实例 所 在 的 聚 类 进行 估计 ， 如 同 对 未 知 实例 进行 类 预测 。 最 大 化 即 用 
已 分 类 的 实例 对 参数 进行 估计 ， 如 同 从 训练 实例 中 决定 属性 值 概 率 ，… 个 小 区 别 在 于 EM 算 
法 实例 被 虐 耶 的 是 类 概率 而 非 类 别 。 在 4.2 节 中 已 遇 到 估计 概率 可 能 为 零 的 问题 ， 这 里 也 同样 
会 碰 到 。 所 幸 的 是 解决 方法 很 简单 ， 使 用 拉 普 拉 斯 (Laplace) 估计 器 。 

朴素 贝 叶 斯 有 独立 属性 的 假设 ， 这 是 它 称 为 “朴素 ”的 原因 所 在 。 一 对 关联 名 词性 属性 ， 
可 能 的 属性 值 分 别 有 w 个 和 六 个 ， 可 以 用 单个 共 变 属性 来 替代 ， 它 的 可 能 属性 值 有 wyv; 个 。 参 
数 的 数量 随 着 关联 属性 的 数量 增加 ， 这 将 牵连 到 概率 估计 及 随后 即将 讨论 的 过 度 拟 合 问题 。 

对 既 有 数值 属性 勾 有 名 词性 属性 的 数据 进行 聚 类 没有 什么 特别 的 问题 ， 共 变 的 数字 和 名 
词性 属性 处 惠 起 来 更 加 困难 ， 这 里 不 作 讨论 。 

残缺 值 可 以 使 用 多 种 不 同方 法 来 调整 。 名 词性 属性 的 残缺 值 可 以 如 4.2 三 中 所 述 的 那样 不 
参与 概率 计算 ; 或 者 也 可 以 把 它们 当 作 是 另 -- 个 属性 值 ， 和 其 他 属性 值 … 样 对 待 。 哪 种 方法 
比较 合适 取决 于 “残缺 ”的 含义 。 对 于 数值 属性 ， 则 采用 相同 的 概率 。 

有 了 这 些 改进 ， 概 率 率 类 变 得 相当 完备 。EM 算 法 贯穿 于 整个 工作 过 程 中 。 用 户 必须 确定 
聚 类 数 日 、 每 个 属性 的 类 型 (数值 属性 或 名 词性 属性 )、 哪 些 属性 要 应 用 共 寞 模式 以 及 如 何 处 
理 残缺 什 。 另 外 .除了 上 上 述 分 布 类 型 外 ， 还 可 应 用 其 他 不 同 的 分 布 。 虽 然 对 于 数值 属性 正 坊 
分 布 通常 是 -个 好 的 选择 ， 但 对 于 某 些 属性 它 并 不 适合 , 那些 属性 (Ronde) 有 预 设 最 小 值 
(对 于 权 来 说 为 零 ) 却 没有 上 限 ， 这 时 比较 适合 使 用 “对 数 - 正 态 ”(log-normal) 分 布 。 同 时 
县 有 上 限 和 下 限 的 数值 属性 可 以 用 “对 数 - 概 率 ”(log-odds) 分 布 。 属 性 值 为 整数 而 非 实数 
时 最 好 使 用 泊 松 分 布 (poisson distribution). -个 完善 的 系统 应 能 允许 对 每 个 属性 进行 个 别 设 
定 。 在 每 种 情形 下 ， 分 布 都 要 牵涉 到 数字 参数 :对 干 离散 属性 来 说 是 所 有 可 能 属性 值 的 概率 ， 
对 于 连续 属性 来 说 是 平均 值 和 标准 差 。 
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在 这 节 中 讨论 的 是 聚 类 。 也 许 你 会 想到 这 些 改进 措施 也 应 能 很 好 运用 于 朴素 贝 叶 斯 算法 ， 
你 是 对 的 。 一 个 完善 的 概率 模型 适用 于 聚 类 学 习 和 分 类 学 习 ， 适 用 于 各 种 不 同 分 布 的 名 词性 
属性 和 数值 属性 ， 适 合 于 各 种 不 同 的 共 变 可 能 ， 也 适合 于 不 同 的 残缺 值 处 理 方法 。 作 为 领域 
知识 的 一 部 分 ， 用 户 要 确定 各 个 属性 所 使 用 的 分 布 。 


6.6.7 贝 叶 斯 聚 类 

然而 ， 还 有 “个 障碍 过 度 拟 合 。 你 也 许 会 说 如 果 不 确 定 哪些 属性 是 互相 依赖 的 ， 为 什 
么 不 安全 一 点 将 所 有 属性 都 设 定 为 共 变 的 ?答案 是 参数 越 多 最 终 模型 结构 越 是 可 能 对 训练 数 
据 产 生 过 度 拟 合 ， 共 变 设 定 使 参数 数量 急剧 上 升 。 机 器 学 习 中 总 是 产生 过 度 拟 合 问 题 ， 概 率 
聚 类 也 不 例外 。 产生 的 途径 有 两 条 : 所 设 聚 类 的 数目 太 多 ， 以 及 所 设 分 布 参数 太 多 。 

一 种 太 多 守 类 数目 的 极端 现象 是 每 个 数据 点 即 为 一 个 聚 类 : 很 清楚 这 将 产生 对 训练 数据 
的 过 度 拟 合 。 实 际 上 ， 在 混合 模型 中 ， 每 当 正 态 分 布 变 得 很 狭 窗 以 至 于 集中 在 一 个 数据 点 上 ， 
就 会 产生 过 度 拟 合 问 题 。 因 此 在 实现 中 ， 通 常 要 规定 聚 类 至 少 必须 含 两 个 不 同 数据 值 。 

只 要 参数 数量 多 ， 就 会 发 生 过 度 拟 合 问题 。 如 果 不 人 确定 哪些 属性 是 共 变 的 ， 你 可 能 会 对 各 
种 不 同 共 变 的 可 能 进行 试验 ， 然 后 挑选 其 中 能 使 数据 处 于 所 找到 育 类 的 总 体 概率 达到 最 大 值 
的 那个 。 不 地 的 是 ， 参 数 数量 越 多 ， 这 个 数据 总 体 概率 也 越 高 。 这 个 高 概率 并 非 是 好 的 察 类 
所 需 的 .而 是 过 度 拟 合 所 需 的 。 越 多 的 参数 参与 进来 ， 越 是 容易 找到 看 起 来 似乎 很 好 的 聚 类 。 

如 果 能 在 引入 新 参数 的 同时 ， 对 模型 设置 某 些 障碍 是 个 不 错 的 主意 。 一 个 基本 的 方法 就 是 完 
全 采纳 贝 叶 斯 方法 ， 让 每 个 参数 都 有 -个 先 验 概率 分 布 。 然 后 每 当 引 入 一 个 新 参数 ， 它 的 先 验 概 
率 要 参与 总 体 似 然 的 计算 。 由 于 总 体 似 然 要 乘 以 一 个 小 于 1 的 数字 ， 即 先 验 概 率 ， 这 便 给 因 新 参 
数 引 入 而 产生 的 似 然 增值 自动 设 障 。 若 要 提高 总 体 似 然 ， 新 参数 必须 能 产生 超出 惩罚 的 收益 。 

从 某 种 意义 上 看 ，4.2 节 中 提 到 的 以 及 上 述 对 于 名 词性 属性 值 遇 到 零 概 率 问 题 时 ， 建 议 使 
用 的 拉 普 拉 斯 估计 器 是 这 样 - 种 机 构 ， 每 当 观 察 到 的 概率 很 小 时 ， 拉 普 拉 斯 估计 器 强制 设 障 ， 
使 这 个 零 或 接近 零 的 概率 提高 ， 从 而 降低 数据 的 总 体 似 然 。 将 两 个 名 词性 属性 共 变 会 加 剧 这 
个 间 题 。 原 先 有 vw + mm 个 参数 ， 这 里 w 和 是 可 能 的 属性 值 个 数 ， 现 在 增 为 wv: 个 参数 ， 同 时 也 
大 大 增加 了 产生 大量 小 估计 概率 的 机 会 。 实 际 上 ， 拉 普 拉 斯 估计 器 与 引入 新 参数 时 使 用 某 个 
特定 的 先 验 概率 是 等 效 的 。 

对 于 府 类 数目 过 多 的 问题 也 可 采用 相同 的 技术 来 抑制 ， 只 要 预 设 一 个 先 验 分 布 ， 当 聚 类 
数目 增加 时 它 将 急剧 下 降 。 

AutoClass 是 一 种 完善 的 贝 叶 斯 聚 类 方法 ， 它 使 用 有 限 混合 模型 ， 每 个 参数 都 带 有 先 验 分 布 。 
它 适 用 于 数值 属性 和 名 词性 属性 ， 并 且 使 用 EM 算法 对 概率 分 布 参数 做 出 最 适合 数据 的 估计 。 
由 于 不 能 保证 EM 算法 一 定 收敛 于 全 局 最 佳 点 ， 因 此 使 用 不 同 的 初始 值 进行 多 次 重复 运行 。 不 
仅 如 此 ，、AutoClass 还 著 虑 到 不 同 的 聚 类 数目 ， 不 同 的 协 方差 ， 以 及 对 于 数值 属性 的 不 同 概率 分 
布 类 型 。 这 又 牵涉 到 个 额外 的 外 层 搜 杂 。 例 如 ， 它 初始 时 分 别 对 2、3、5、7、10、15 和 25 个 
聚 类 进行 对 数 - 似 然 评 估 ， 然 后 为 结果 数据 找到 合适 的 对 数 - 正 态 分 布 ， 并 从 中 随机 抽取 ， 用 更 
多 的 值 进行 测试 。 止 如 你 所 想像 的 ， 整 个 算法 非常 耗 时 。 在 实际 实现 过 程 中 ， 有 -- 个 预 设 的 时 
间 限 度 ， 只 要 在 时 间 人 允许 范围 ， 便 继续 迭代 过 程 。 这 个 时 间 限 度 设 得 越 长 ， 效 果 越 好 。 
6.6.8 讨论 

上 上述 各 种 察 类 方法 产生 不 同 的 输出 。 它 们 都 能 对 新 数据 以 测试 集 的 形式 ， 根 据 对 训练 集 
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分 析 所 得 的 附 类 来 进行 分 类 。 然 而 ， 只 有 递增 聚 类 方法 可 以 生成 清晰 的 知识 结构 ， 能 够 将 聚 
类 描述 可 视 化 并 做 出 合理 的 论述 。 至 于 其 他 算法 形成 的 府 类 ， 如 果 维 数 不 是 太 多 的 话 ， 可 在 
实例 空间 实现 可 视 化 。 

如 果 使 用 聚 类 方法 对 训练 集 实例 按照 所 在 聚 类 编号 赋予 标签 ， 标 有 标签 的 数据 集 便 可 用 
于 规则 训练 或 决策 树 学 习 器 。 规 则 或 决策 树 的 学 习 结 果 将 形成 铺 楚 的 类 描述 。 概 率 案 类 方案 
也 可 这 样 应 用 ， 除 了 每 个 实例 可 能 有 多 个 加 权 标 签 ， 因 此 规则 或 决策 树 学 习 器 必须 能 处 理 加 
权 的 实例 ， 许 多 都 可 以 。 

聚 类 的 另 一 个 应 用 是 填补 属性 的 残缺 值 。 例 如 ， 可 以 对 某 个 实例 的 未 知 属性 值 进行 统计 
估计 ， 根 据 实例 本 身 的 类 分 布 以 及 其 他 样本 中 这 个 未 知 属性 值 来 估计 。 

我 们 所 考查 的 所 有 育 类 方法 都 是 在 独立 属性 这 个 假设 前 提 下 的 。Autoclass 人 允许 用 户 事先 
设 定 两 个 或 两 个 以 上 的 属性 间 存 在 相互 依赖 关系 ， 并 用 联合 概率 分 布 模型 。( 然 而 ， 这 里 有 个 
限定 : 名 词性 属性 间 也 许 会 发 生 关联 变化 ， 数 值 属性 间 同 样 也 会 ， 但 这 两 种 属性 之 间 不 可 关 
联 变 化 。 另 外 ， 对 十 残缺 值 ， 关 联 变化 属性 也 不 适合 。) 使 用 某 种 统计 学 技术 ， 艾 如 将 在 7.3 
节 中 讨论 的 主 分 量 转换 法 (principal components transform), ， 对 数据 集 进行 预 处 理 从 而 使 属性 
更 加 独立 ， 或 许 能 有 些 益处 。 注 意 ， 使 用 这 种 技术 ， 并 不 能 消除 存在 于 某 些 特定 类 内 的 有 联合 
变化 ， 它 只 能 消除 存在 于 所 有 类 之 间 的 总 体 联 合 变化 。 

通过 重复 分 裂 诊 类 并 考察 分 裂 是 否 值 得 ， 以 此 来 改进 k 均 值 法 使 之 能 找到 较 好 的 k 值 ， 这 个 
方法 是 根据 Moore 和 Pelleg (2000 年 ) 的 X 均 值 算法 。 它 使 用 了 一 个 称 为 贝 叶 斯 信息 标准 (Bayes 
Information Criterion) 的 概率 方案 (Kass 和 Wasserman，1995 年 ) 来 替代 最 短 描述 长 度 原理 。 
基于 合并 和 分 裂 操 作 的 递增 诊 类 程序 是 在 适用 于 名 词性 属性 的 Cobweb 系 统 (Fisher，1987 年 ) 
和 适用 于 数值 属性 的 Classit 系 统 (Gennari, 199042) 中 提出 的 。 这 两 个 系统 都 是 以 1985 年 
Gluck 和 Corter 定 义 的 类 别 效用 衡量 方法 为 基础 的 。 AutoClass 程 序 是 在 1995 年 由 Cheeseman 和 
Stutz 提出 的 。 现 有 两 种 实现 版 本 : 用 LISP 实现 的 原始 研究 版 本 和 随后 用 C 编 写 的 版 本 ， 后 者 要 
比 前 者 快 10 到 20 倍 ， 但 却 有 些 局 限 ， 例 如 对 于 数值 属性 只 实现 了 正 态 分 布 模型 。 


6.7 贝 叶 斯 网 络 


4.2 节 中 的 朴素 贝 叶 斯 分 类 器 以 及 4.6 节 中 的 logistic 回 归 模 型 都 是 产生 概率 估计 来 替代 类 预 
测 的 。 对 于 每 个 类 值 ， 它 们 都 是 估计 某 个 实例 属于 这 个 类 的 概率 。 大 多 数 其 他 类 型 的 分 类 器 
如 有 必要 都 可 以 强制 产生 这 类 信息 。 例 如 ， 通 过 计算 叶 节点 上 每 个 类 的 相对 频率 ， 便 能 从 决 
策 树 中 得 到 概率 ， 同 样 地 通过 检验 某 条 规则 所 覆盖 的 实例 ， 便 能 从 决策 列 中 得 到 概率 。 

概率 估计 经 常 比 仅仅 是 预测 更 为 有 用 。 它 们 可 以 对 所 做 的 预测 进行 排名 ， 使 期 望 成 本 达 
到 最 小 化 〈 见 5.7 节 )。 事 实 上 ， 把 分 类 学 习 当 作 是 从 数据 中 学 习 类 概率 估计 的 任务 来 完成 ， 
还 存在 很 大 的 争议 。 所 估计 的 是 类 属性 值 的 条 件 概率 分 布 ， 前 提 是 给 定 其 他 属性 值 。 分 类 模 
型 是 用 一 种 简洁 易 懂 的 形式 来 表达 这 个 条 件 分 布 的 。 

由 此 看 来 ， 朴 素 贝 叶 斯 分 类 器 、logistic 回 归 模 型 、 决 策 树 等 等 只 是 用 不 同 的 方法 表达 一 
个 条 件 概 率 分 布 。 当 然 ， 它 们 的 表达 能 力 有 所 差别 。 朴 素 贝 叶 斯 分 类 器 和 logistic 回 归 模型 只 
能 表达 较 简 单 的 分 布 ， 而 决策 树 却 能 表达 至 少 可 以 近似 表达 任意 分 布 (arbitrary distribution). 
但 决策 树 也 有 缺陷 : 它们 将 训练 集 分 隔 成 越 来 越 小 的 数据 集 ， 必 然 造成 概率 估计 可 靠 性 的 下 
降 ， 并 且 还 存在 3.2 节 中 提 到 的 重复 子 树 问 题 。 规 则 集 似乎 可 以 克服 这 些 缺 点 ， 但 是 引导 -个 
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好 的 规则 学 习 器 设计 所 采用 的 启发 式 方法 尚 缺乏 理论 依据 。 

这 是 否 意味 着 只 能 认命 ， 让 这 些 缺 陷 继续 存在 ? 不 ! 有 一 种 基于 统计 理论 的 方法 : 具有 
较 强 理论 根基 、 采 用 图 解 方式 简洁 易 懂 地 表达 概率 分 布 的 方法 。 这 个 结构 称 为 贝 叶 斯 网 络 
(Bayesian networks )。 画 出 的 图 形 就 像 是 节点 网 络 图 ， 每 个 节点 代表 一 个 属性 ， 节 点 间 用 有 
向 连 线 连接 着 ， 却 不 能 形成 环 ， 一 个 有 向 无 环 图 (directed acyclic graph). 

在 解释 贝 叶 斯 网 络 是 如 何 工作 的 以 及 怎样 从 数据 中 来 学 习 贝 叶 斯 网 络 时 ， 要 做 一 些 简 化 
Bit. 假设 所 有 属性 都 是 名 词性 的 并 且 没 有 残缺 值 。 有 些 高 级 的 学 习 算 法 可 以 产生 包含 在 数 
据 之 外 的 新 属性 称 为 隐蔽 属性 ， 它 们 的 属性 值 是 看 不 到 的 。 如 果 这 些 属性 表现 了 潜在 问题 的 
特征 ， 便 能 支持 产生 更 好 的 模型 ， 而 贝 叶 斯 网 络 提 供 了 一 个 很 好 的 方法 能 在 预测 时 使 用 这 些 
属性 。 然 而 ， 这 使 得 学 习 和 预测 更 为 复杂 并 且 耗 时 ， 因 此 这 里 不 作 讨论 。 


6.7.1 做 出 预测 


图 6-20 展 示 了 一 个 关于 天 气 数据 的 贝 叶 斯 网 络 的 简单 实例 。 图 中 数据 的 4 个 属性 阴 睛 、 温 
度 、 湿 度 和 刮 风 以 及 类 属性 玩 分 别 用 节点 表示 。 有 向 连 线 从 玩 节 点 指向 其 他 各 个 节点 。 但 在 
贝 叶 斯 网 络 中 图 形 结构 只 是 一 部 分 ， 在 图 6-20 中 每 个 节点 内 还 含有 一 个 列表 。 表 中 的 信息 定 
义 了 将 用 于 预测 任意 一 个 实例 类 概率 的 概率 分 布 。 





yes no 
0.633 0.367 











刮 风 


玩 HIA 
false true 
yes {0.350 0.650 
no 0.583 0.417 















湿度 


玩 湿度 

high normal 
yes 0.350 0.650 
no 0.750 0.250 










图 6-20 天 气 数据 的 一 个 简单 贝 叶 斯 网 络 实例 
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在 讨论 怎样 计算 这 个 概率 分 布 之 前 ， 先 来 考虑 一 下 表 中 的 信息 。 下 方 的 4 个 表 ( 阴 上 晴 、 温 
度 、 湿 度 和 刮 风 ) 被 一 根 垂直 线 划 分 成 两 个 部 分 。 左 边 是 玩 属性 的 属性 值 ， 右 边 对 应 的 是 这 
个 节点 所 代表 属性 的 各 个 属性 值 的 概率 。 一 般 来 说 ， 左 边 包 含 的 每 列 分 别 代 表 每 个 指向 该 节 
点 的 属性 ， 在 这 里 只 有 玩 属 性 。 这 也 是 玩 节点 本 身 列表 中 左边 没有 信息 的 原因 : CREE 
节点 。-- 般 来 说 ， 每 一 行 的 概率 对 应 于 一 组 父辈 属性 值 组 合 ， 行 中 的 每 个 概率 代表 了 这 个 节 
点 属性 的 每 个 属性 值 对 应 于 某 种 属性 值 组 合 的 概率 。 实 际 上 ， 每 一 行 都 是 对 该 节点 属性 的 属 
性 值 的 一 个 概率 分 布 定义 。 每 行 中 各 个 概率 的 总 和 始终 是 1。 

多 6-21 展 示 了 同 是 这 个 间 题 的 一 个 更 为 复杂 的 网 络 ， 这 时 其 中 3 个 节点 〈 乔 风 、 温 度 和 温 
E) 都 有 两 个 父辈 节点 。 同 样 ， 每 个 父辈 都 会 在 左边 产生 -- 列 ， 右 边 的 列 数 等 同 于 节点 属性 
的 属性 值 数量 。 考 虑 温度 节点 所 含 列 表 的 第 一 行 。 左 边 列 出 了 它 的 每 个 父辈 属性 的 属性 值 ， 
玩 和 阴 畏 ; 右边 列 出 了 每 个 温度 属性 值 的 概率 。 例 如 ， 第 一个 数字 (0.143) 是 当 玩 和 阴 晴 的 
属性 值 分 别 为 yes 和 sunny 时 ， 温 度 的 属性 值 为 hot 的 概率 。 

怎样 利用 这 些 表 来 预测 某 个 实例 的 每 个 类 值 的 概率 呢 ?” 由 于 假设 没有 残缺 值 ， 这 就 变 得 
很 简单 了 。 实 例 的 每 个 属性 都 有 确定 的 属性 值 。 对 网 络 中 的 每 个 节点 ， 根 据 父辈 属性 值 找到 
相应 的 行 ， 查 看 该 行 节点 属性 值 的 概率 。 然 后 将 这 些 概率 相 乘 。 

例如 ， 考 虑 这 样 -个 实例 阴 晴 = rainy, 温度 = cool, 湿度 = high, 刮 风 = true. 要 计算 玩 = 
no 的 概率 ， 查 看 图 6-21 中 的 网 络 ， 玩 节点 给 出 概率 0.367， 阴 上 畏 节点 给 出 概率 0.385， 温 度 节 
点 给 出 概率 0.429， 湿 度 节点 给 出 概率 0.250， 刊 风 节 点 给 出 概率 0.167。 它 们 的 乘积 是 0.0025。 
对 玩 = yes 也 做 相同 的 计算 ， 得 到 0.0077。 很 显然 这 并 非 是 最 终 答 案 : 最 终 概率 之 和 应 为 1， 
而 现在 0.0025 和 0.0077 之 和 不 等 于 1。 实 际 上 它们 是 Pr[ 玩 = no, E] 和 Pr[ Ht = yes, E ] 的 联合 概 
率 ， 其 中 E 是 指 由 这 个 实例 的 属性 值 所 给 出 的 所 有 例证 。 联 合 概率 既 衡 量 - 一 个 实例 各 自 类 值 ， 
也 衡量 实例 的 属性 值 在 E 中 的 似 然 。 只 有 考虑 了 包括 类 属性 在 内 的 所 有 可 能 的 属性 值 组 合 空间 
时 ， 它 们 的 和 才 为 1。 这 个 例子 绝对 不 属于 这 种 情况 。 

解决 方法 很 简单 (在 4.2 节 中 曾 遇 到 过 )。 要 得 到 条 件 概 率 Pr[ 玩 = no l E] 和 Prl 玩 = yes | 
E ]， 只 要 将 这 两 个 联合 概率 正常 化 处 理 ， 即 分 别 除 以 两 者 之 和 。 得 到 玩 = no 的 概率 为 0.245， 
玩 = yes 的 概率 为 0.755。 

只 剩 下 -个 迷 了 : 为 什么 是 将 这 些 概 率 相 乘 呢 ? 乘积 步 又 的 有 效 性 是 要 有 一 个 前 提 假 设 
的 ， 那 便 是 给 定 每 个 父辈 节点 所 代表 属性 的 属性 值 ， 知 道 任何 其 他 先辈 的 属性 值 并 不 能 使 该 
节点 属性 的 各 个 可 能 的 属性 值 所 对 应 的 概率 发 生变 化 。 换 名 话说， 就 是 先辈 并 不 能 提供 任何 
多 于 父 巩 所 能 提供 的 有 关 该 节点 属性 值 的 似 然 信息 。 这 点 可 以 表示 为 

Pr[ 节 点 | 祖先 ]=Pr[ 节 点 | 父 节点 ] 
所 有 节点 值 和 牵涉 在 内 的 属性 都 必须 遵守 这 条 假设 。 在 统计 学 中 ， 这 称 为 条 件 独立 
(conditional independence )。 给 定 父辈 属性 ， 每 个 节点 对 于 它 的 祖父 辈 、 曾 祖父 辈 等 等 都 是 条 
件 独 立 的 ， 在 这 种 情形 下 乘积 便 是 有 效 的 。 乘 积 步骤 遵循 概率 理论 中 的 链 规则 ， 链 规则 提出 
个 属性 a 的 联合 概率 可 以 分 解 为 如 下 的 乘积 : 


Pria,,a,,---,a,]= |] Pria, laa] 
i=] 


这 个 分 解 表达 式 对 于 任何 - -种 属性 排列 都 是 成 立 的 。 因 为 员 叶 斯 网 络 是 一 种 无 环 图 ， 可 以 将 
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网 络 节点 进行 排列 ， 使 节点 a OMAR Sai. Ria. APR BI. 
Prfa,, a, +, a,)= [[Prla, la, a, = J [Prla, la, 的 父 节 点 ] 


正 是 前 面 所 应 用 的 乘积 规则 。 





Play outlook windy 













false true 
yes sunny |0.500 0.500 
yes overcast|0.500 0.500 
rainy 0.875 






















overcast|0.500 
rainy 


0.500 
0.167 






outlook 
sunny overcast rainy 
0.238 0.429 0.333 

0.538 0.077 0.385 















play temperat. humidity 
high normal 
0.500 0.500 
0.500 0.500 
0.125 0.875 
0.833 0.167 
0.833 0.167 
0.250 0.750 
















yes hot 
yes mild 
yes cool 
no hot 

no mild 
no cool 

























play outlook temperature 
hot mild cool 
yes sunny [0.143 0.429 0.429 
yes overcastj0.455 0.273 0.273 
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图 6-20 和 图 6-21 展 示 的 两 种 贝 叶 斯 网 络 从 本 质 上 来 看 是 不 同 的 。 第 一 个 (图 6-20) 具有 更 
为 严格 的 独立 假设 ， 因 为 它 的 每 个 节点 的 父辈 都 是 第 二 个 〈 图 6-21) 中 所 对 应 的 每 个 节点 的 
父 斐 的 一 个 子 集 。 实 际 上 ， 图 6-20 几 乎 就 是 4.2 节 中 的 朴素 贝 叶 斯 分 类 器 (概率 计算 略 有 不 同 ， 
只 是 因为 每 个 累计 数 都 被 初始 为 0.5 以 避免 零 频 率 问题 )。 图 6-21 网 络 中 的 条 件 概率 列表 含有 更 
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多 的 行 ， 因 此 需要 更 多 的 参数 ; 它 可 能 会 是 对 于 潜在 领域 更 为 精确 的 -- 种 表示 法 。 

假设 贝 叶 斯 网 络 中 的 有 向 连 线 组 代表 的 是 因果 关系 ， 这 是 个 非常 诱 人 的 假设 。 要 谨慎 ! 
在 上 述 例子 中 ， 玩 属性 的 属性 值 会 使 阴 晴 属性 的 某 个 具体 值 所 对 应 的 期 望 值 提高 ， 但 事实 上 
两 者 并 没有 因果 关系 ， 也 许 更 有 可 能 是 相反 的 。 对 具有 同样 概率 分 布 的 相同 问题 ， 可 以 建立 
不 同 的 贝 叶 斯 网 络 。 可 以 采用 不 同方 法 ， 利 用 条 件 独 立 对 联合 概率 分 布 进行 分 解 来 实现 。 使 
用 有 向 连 线 反 映 因果 关系 模式 的 网 络 是 最 为 简单 的 ， 它 所 带 的 参数 最 少 。 因 此 为 某 个 特定 领 
域 组 建 贝 叶 斯 网 络 的 专家 们 经 常 受益 于 用 有 向 连 线 来 代表 因果 关系 。 然 而 ， 机 器 学 习 技 术 是 
从 数据 中 导出 模型 ， 其 中 的 因果 结构 是 未 知 的 ， 所 能 做 的 只 是 根据 从 数据 中 观察 到 的 相关 性 
建立 网 络 。 而 从 数据 相关 性 推导 出 的 因果 关联 总 是 风险 很 大 的 。 


6.7.2 学 习 贝 叶 斯 网 络 

为 贝 叶 斯 网 络 建立 -种 学 习 算法 的 方法 是 定义 两 个 组 成 部 分 : -个 是 对 基于 某 个 数据 集 
的 网 络 进行 评估 的 评估 函数 ， 另 一 个 是 在 所 有 可 能 的 网 络 空间 中 搜索 的 搜索 方法 。 某 个 给 定 
网 络 的 质量 是 根据 对 于 给 定 网 络 的 数据 的 概率 来 衡量 的 。 我 们 计算 网 络 和 每 个 实例 相符 和 的 
概率 ， 然 后 将 所 有 实例 的 这 些 概率 相 乘 。 在 实践 中 ， 很 快 会 使 这 个 数字 达到 非常 小 ， 以 至 于 
不 能 较 好 地 反映 质量 〈 称 为 算法 下 溢 arithmetic underflow ) ， 因 此 ， 我 们 使 用 概率 对 数 的 总 和 
来 替代 原先 的 乘积 。 最 终 的 计算 结果 就 成 了 对 于 给 定数 据 ， 网 络 的 对 数 - 似 然 。 

假设 网 络 结构 即 有 向 连 线 组 是 已 知 的 。 很 容易 估计 条 件 概率 表 中 所 列 的 数字 ， 只 要 计算 
训练 数据 中 对 应 属性 值 组 合 的 相对 频率 。 为 避免 零 频 率 的 出 现 ， 像 4.2 节 所 述 的 那样 使 用 一 个 
常量 来 初始 化 累计 数 。 例 如 ， 为 要 找 出 已 知 玩 = yes 和 温度 = cool 时 ,湿度 = normal 的 概率 
(图 6-21 的 湿度 节点 列表 中 第 三 行 的 最 后 一 个 数字 )。 从 表 1-2 中 ， 可 观察 到 天 气 数据 中 有 3 个 
实例 含有 这 样 的 属性 值 组 合 ， 却 没有 实例 湿度 = high， 同 时 含 相 同 的 玩 和 温度 属性 值 。 将 湿 
度 两 个 属性 值 的 累计 数 初始 为 0.5， 得 到 湿度 = normal 的 概率 为 (3+0.5) / (3+0+1) = 0.875. 

网 络 中 的 节点 是 预 设 的 : 每 个 属性 各 有 -- 个 (包括 类 属性 )。 学 习 网 络 结构 等 于 是 在 可 能 
的 有 向 连 线 组 空间 进行 搜索 ， 对 每 组 的 条 件 概率 表 进 行 估 计 ， 并 计算 结果 网 络 基于 某 个 数据 
集 的 对 数 - 似 然 ， 以 此 作为 对 网 络 质量 的 衡量 。 各 种 贝 叶 斯 网 络 学 习 算法 的 不 同 之 处 在 于 它们 
在 网 络 结构 空间 的 搜索 方式 。 以 下 是 - 些 算法 的 介绍 。 

A -点 要 告诫 的 。 如 果 对 数 - 似 然 是 基于 训练 数据 集 进行 了 最 大 化 ， 增 加 更 多 的 有 向 连 线 
总 是 会 获得 较 好 的 结果 ,造成 最 终 的 网 络 过 度 拟 合 。 很 多 方法 可 用 于 解决 这 个 问题 。 一 种 可 
能 的 方法 是 采用 交叉 验证 法 来 估计 拟 合 的 良好 度 。 第 二 种 是 根据 参数 数目 ， 相 应 增加 网 络 复 
杂 度 惩罚 、 即 在 所 有 概率 列表 中 独立 估计 的 总 数目 。 每 个 表 中 ， 独 立 概率 的 数目 是 表 中 所 有 
概率 的 总 个 数 减 去 最 后 一 列 中 的 个 数 ， 由 于 每 一 行 概率 的 和 应 为 1， 因 此 最 后 一 列 的 概率 可 根 
据 其 他 列 的 值 而 导出 。 假 设 K 为 参数 数量 ，LL 表 示 对 数 - 似 然 ，N 为 数据 集中 的 实例 数量 ， 有 
两 个 较 普 及 的 衡量 方法 可 用 于 评估 网 络 质 量 : Akaike 信息 标准 (Akaike Information Criterion, 
简称 AIC ) 

AIC score = - LL+ K 


以 及 下 面 所 列 基于 最 短 描述 长 度 原理 的 MDL 度 量 : 


MDL score = -LL + FlogN 
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这 两 个 表达 式 中 对 数 - 似 然 都 是 负数 ， 因 此 目标 便 是 使 它们 的 结果 得 分 最 小 化 。 

第 : :个 可 能 的 方法 是 赋予 网 络 结构 个 先 验 分 布 ， 通 过 组 合 先 验 概 率 以 及 数据 与 网 络 相 
符 的 概率 ， 找 出 可 能 性 最 大 的 网 络 。 这 是 网 络 评分 的 “ 贝 叶 斯 ”法 。 取 决 于 所 使 用 的 先 验 分 
布 ， 可 以 有 多 种 形式 。 但是， 真正 的 贝 叶 斯 要 平衡 所 有 可 能 的 网 络 结 构 ， 而 不 是 只 取 其 中 某 
个 具体 网 络 进行 预测 。 不 幸 的 是 这 需要 进行 大 量 的 计算 。 一 个 简化 了 的 方案 是 平均 某 个 给 定 
网 络 的 所 有 了 -结构 网 络 。 改 变 计算 条 件 概 率 表 所 采用 的 方法 ， 从 而 使 结果 概率 估计 包含 了 来 
自 所 有 子 网 络 的 信息 ， 这 个 方案 实现 起 来 非常 有 效 。 这 个 方案 的 细节 也 相当 复杂 ， 这 里 就 不 
再 讨论 了 。 

如 果 使 用 适当 的 评分 度量 ， 搜 寻 -- 个 好 的 网 络 结构 的 任务 可 以 大 大 地 简化 。 回 顾 一 下 一 
个 网 络 中 某 个 实例 的 概率 是 所 有 条 件 概率 表 中 单个 概率 的 乘积 。 数 据 集 的 总 体 概率 是 把 所 有 
实例 的 这 些 乘 积 再 进行 乘积 运算 得 到 的 。 由 于 乘积 运算 中 的 项 是 可 互 换 的 ， 因 此 这 个 乘积 表 
达 可 以 重 写 为 把 同属 一 个 表 的 各 个 系数 组 合 在 一 起 的 形式 。 在 对 数 - 似 然 的 计算 中 ， 是 将 求 和 
运算 代替 乘积 运算 ， 因 此 也 同样 可 以 如 此 处 理 。 这 意味 着 似 然 的 优化 可 以 在 网 络 的 每 个 节点 
中 分 别 进行 。 它 可 以 通过 增加 或 去 除 其 他 节点 指向 正在 进行 优化 的 节点 的 连 线 来 完成 ， 唯 一 
的 限制 就 是 不 可 引入 环 。 如 果 局 部 评分 度量 使 用 如 AIC 或 MDL 的 方案 来 替代 朴素 的 对 数 - 似 然 ， 
这 个 诀窍 也 同样 生效 ， 因 为 惩罚 项 会 被 分 裂 成 几 个 组 成 部 分 ， 每 个 节点 各 一 个 ， 而 且 每 个 节 
点 可 以 进行 独立 的 优化 。 


6.7.3 算法 细节 

现在 来 看 用 于 贝 叶 斯 网 络 学 习 的 实际 算法 。- -个 简单 而 快速 的 学 习 算 法 称 为 K2 起 始 于 某 
个 给 定 的 属性 ( 即 节 点 ) 排序 。 然 后 ， 对 每 个 节点 依次 进行 处 理 ， 贪 心地 增加 从 先前 处 理 过 
的 节点 指向 当前 节点 的 连 线 。 每 一 步 过 程 中 都 增加 那些 能 使 网 络 评 分 达到 最 高 值 的 连 线 。 当 
不 再 有 改进 时 ， 便 将 注意 力 转向 下 一 个 节点 。 每 个 节点 的 父 华 数量 可 以 被 限制 在 一 个 预 设 的 
最 大 值 范围 内 ， 这 可 作为 -个 防止 过 度 拟 合 的 附加 机 构 ， 由 于 只 考虑 起 始 于 前 面 已 经 处 理 过 
的 节点 的 连 线 ， 并 且 顺 序 是 固定 的 ， 这 个 程序 不 会 产生 环 。 但 是 结果 依赖 于 初始 排序 ， 因 此 
采用 不 同 的 随机 排序 对 算法 进行 多 次 运作 是 有 意义 的 。 

朴素 贝 叶 斯 分 类 器 是 这 样 -一 种 网 络 ， 它 的 连 线 是 由 类 属性 指向 其 他 每 个 属性 。 当 为 分 类 
而 建立 网 络 时 ， 使 用 这 种 网 络 作 为 搜寻 起 点 有 时 还 是 有 帮助 的 。 可 以 使 用 K2 方 案 来 实现 ， 强 
制 把 类 属性 列 为 序列 中 的 第 :个 属性 并 合理 地 设 定 初 始 连 线 。 

另 一 个 汶 在 的 有 用 技巧 就 是 要 确保 数据 的 每 个 属性 都 在 类 属性 节点 的 马尔 可 夫 毯 
(Markov blanket) 范围 内 。 -个 节点 的 马尔 可 夫 毯 包含 该 节点 的 父 斐 节 点 、 子 节点 以 及 子 节 
点 的 父辈 节点 。 可 以 证 明 节 点 与 它 的 马尔 可 夫 毯 内 的 所 有 其 他 节点 都 是 条 件 独立 的 。 因 此 ， 
如 果 一 个 节点 不 包括 在 类 属性 的 马尔 可 夫 黎 内 ， 那 么 该 节点 所 代表 的 属性 与 分 类 就 是 毫 无 关 
系 的 。 反 过 来 ， 如 果 K2 发 现 - -个 网 络 没 有 将 某 个 相关 属性 包含 在 类 属性 的 马尔 可 夫 丢 内， 或 
许可 以 增加 -条 连 线 来 纠正 这 个 缺点 。 一 个 简单 的 方法 便 是 增加 一 条 连 线 ， 自 这 个 属性 节点 
指向 类 节点 ,或 自 类 节点 指向 这 个 属性 节点 ， 这 要 取决 于 哪 种 方向 可 以 避免 环 。 

不 进行 节点 排序 ， 而 是 采取 贪心 考虑 增加 或 去 除 任意 一 对 节点 间 的 连 线 ( 当然 始终 要 保 
证 无 环 ) 是 -一 个 更 为 周全 但 却 较 慢 的 K2 版 本 。 青 进一步 就 是 要 同时 考虑 反 转 现存 连 线 。 使 用 
任何 的 贪心 算法 ， 结 果 网 络 只 能 代表 某 个 局 部 最 大 评分 函数 ， 通 常 建议 采用 不 同 的 随机 初始 
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值 ， 多 次 运行 算法 。 还 可 使 用 如 模拟 退火 (simulated annealing), tabu 搜索 或 是 遗传 算法 
(genetic algorithms) 等 更 为 复杂 的 优化 策略 。 

另 一 种 较 好 的 册 叶 斯 网 络 分 类 器 学 习 算法 称 为 树 扩 展 型 朴素 贝 叶 斯 (tree augmented 
Naive Bayes (TAN))。 正 如 它 的 名 称 所 瞳 示 的 ， 在 朴素 贝 叶 斯 分 类 器 上 添加 连 线 。 类 属性 是 
朴素 贝 叶 斯 网 络 每 个 节点 的 单一 父 人 节点，TAN 考 虑 为 每 个 节点 增加 第 二 个 父 获 节点。 如果 
排除 类 节点 和 其 相应 的 所 有 连 线 ， 假设 只 有 一 个 节点 没有 增加 第 二 个 父 烛 节点， 结果 分 类 器 
包含 一 个 以 无 -父辈 (parent less) 节点 为 根 节点 的 树 结构 一 一 这 也 是 这 个 节点 名 称 的 由 来 。 
对 于 这 类 限制 型 的 网 络 有 一 种 有 效 的 算法 能 找 出 使 网 络 似 然 达 到 最 大 值 的 连 线 组 合 ， 它 是 以 
计算 网 络 的 最 大 加 权 生 成 树 为 基础 的 。 这 个 算法 与 实例 数量 呈 线 性 关系 ， 与 属性 数量 时 一 次 





ARK RK 
到 日 前 为 止 所 讨论 的 评分 度量 都 是 基于 似 然 的 ， 意 义 在 于 使 每 个 实例 的 联合 概率 Pr[a,, a, 
cid, ] 最 大 化 。 然 而 ， 在 分 类 问题 中 ， 真 正 要 最 大 化 的 是 在 给 定 其 他 属性 值 的 情况 下 ， 类 的 


条 件 概率 ， 换 名 话说 就 是 条 件 似 然 。 不 幸 的 是 ， 对 于 贝 叶 斯 网 络 的 列表 中 所 需要 的 最 大 条 件 
似 然 概率 估计 没有 闭合 形式 的 解决 方法 。 另 一 方面 ， 为 某 个 给 定 的 网 络 和 数据 集 ， 计 算 条 件 
似 然 是 很 直截了当 的 ， 最 终 是 logistic 回归 所 要 做 的 。 因 此 有 人 提议 在 网 络 中 使 用 标准 的 最 大 
似 然 概率 估计 ， 而 对 某 个 具体 的 网 络 结构 则 采用 条 件 似 然 来 评估 。 

男 一 种 使 用 贝 叶 斯 网 络 进行 分 类 的 方法 是 为 每 种 类 根据 属于 该 类 值 的 数据 分 别 建立 网 络 ， 
并 利用 贝 叶 斯 规则 来 组 合 这 些 网 络 预测 结果 .。 这 -- 组 网 络 称 为 贝 叶 斯 揽 网 (Bayesian multinet). 
要 得 到 某 个 类 值 的 预测 ， 将 相应 网 络 的 概率 乘 以 类 值 的 先 验 概率 。 对 每 个 类 都 进行 如 此 操作 
并 将 结果 进行 正常 化 处 理 。 在 这 种 情形 下 ， 不 采用 条 件 似 然 来 进行 每 个 类 值 的 网 络 学 习 。 

上 述 所 有 网 络 学 习 算 法 都 是 基于 评分 的 。 另 一 种 策略 ， 是 通过 对 各 个 基于 属性 子 集 的 条 
件 独立 性 进行 测试 ， 拼 凌 起 一 个 网 络 来 ， 这 里 不 作 讨论 。 这 就 是 所 谓 的 “条 件 独立 测试 的 结 


构 学 习 ”(structure learning by conditional independence tests ) 。 


6.7.4 用 于 快速 学 习 的 数据 结构 


学 习 贝 叶 斯 网 络 处 及 到 大 量 的 计算 。 对 于 搜索 过 程 中 考虑 的 每 个 网 络 结构 ， 数 据 必 须 被 
重新 扫描 、 以 获得 填写 表 中 的 条 件 概率 所 需 的 累计 数 。 是 否 可 以 将 它们 保存 为 某 种 数据 结构 
以 消除 一 次 又 一 次 重新 扫描 数据 的 需要 昵 ? 一 种 显而易见 的 方法 就 是 预先 计算 好 累计 数 并 将 
非 零 数值 保存 人 在 一 个 表 中 ， 比 如 4.5 节 中 提 到 的 散 列表 。 即 使 如 此 ， 任 何 非 平凡 的 数据 集 都 将 
会 产生 大 量 的 非 零 累计 数 。 

再 次 考虑 表 1-2 的 天 气 数据 。 表 中 列 有 5 个 属性 ， 其 中 2 个 属性 各 含 3 个 属性 值 ， 另 外 3 个 属 
性 各 含 2 个 属性 值 。 这 便 给 出 4 x 4x 3 x 3 x 3 = 432 个 可 能 的 累计 数 。 乘 积 中 的 每 个 部 分 各 对 
应 于 一 个 属性 ， 各 自 的 贡献 要 比 它 所 含 属性 值 数量 多 一 个 ， 这 是 因为 在 累计 中 这 个 属性 可 以 
没有 。 所 有 这 些 累 计 计 算 可 以 当 作 如 4.5 节 中 所 描述 的 项 集 来 处 理 ， 最 小 覆盖 数量 设 为 1。 即 
使 不 保存 零 时 计数， 运行 这 个 简单 的 方案 也 会 很 快 扣 来 内 存 问题 。 

可 以 用 -种 称 为 AD (全 维 ) 树 (all-dimensions tree) 的 结构 来 有 效 地 储存 累计 数 ， 它 类 似 
于 4.7 节 所 描述 的 用 于 最 近邻 搜索 的 上 DpD 树 。 为 了 简单 起 见 ， 这 里 使 用 简化 版 的 天 气 数据 来 进行 描 
述 ， 简 化 数据 只 含有 湿度 ， 乔 风 和 玩 这 三 个 属性 。 图 6-22a 列 举 了 数据 。 虽 然 图 中 只 列 出 了 8 组 
数据 ， 但 可 能 的 累计 数 数 量 有 3 x 3 x 3 = 27 个 。 例 如 ， 玩 = no 的 累计 数 是 5 (累加 起 来 ! )。 
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图 6-22b 展 示 的 是 这 个 数据 的 AD 树 。 每 个 节点 显示 了 从 树 根 到 该 节点 沿途 共有 多 少 实例 ， 
它们 的 属性 值 经 过 了 测试 。 例 如 ， 最 左 端 的 叶 节 点 显示 有 1 个 实例 ， 它 的 湿度 = normal, 刮 风 
= true 以 及 玩 = no 而 最 右 端的 叶 布 点 显示 有 5 个 玩 = no 的 实例 。 


湿度 Si lal 玩 累计 
high true yes 1 
high true no 2 
high false yes 2 
high false no 2 

normal true yes 2 

normal true no 1 

normal false yes 4 

normal false no 0 

a) 简化 版 数据 






湿度 =normal 
7 个 实例 






副 风 =tmue 


b) 对 应 的 AD 树 


图 6-22 天 气 数据 


将 所 有 27 种 累计 情形 都 清楚 地 罗列 出 来 的 树 没 有 什么 意义 。 然 而 ， 它 只 包含 了 8 个 累计 数 ， 
它 所 能 获得 的 不 比 表 多 ， 很 显然 这 并 非 是 图 6-22b 所 要 表达 的 树 。 例 如 ， 没 有 能 测试 湿度 = 
high 的 分 支 。 树 是 怎样 建 起 来 的 ， 怎 样 才能 从 中 得 到 所 有 的 累计 数 呢 ? 

假设 数据 的 每 个 属性 赋予 一 个 索引 。 在 简化 版 天 气 数据 中 ， 赋 予 湿度 索引 为 1， 乔 风 索 引 
为 2， 玩 索引 为 3。AD 树 的 是 这 样 形 成 的 ， 每 个 节点 都 有 一 个 对 应 的 属性 ;， 该 节点 是 根据 索 
SU > ;的 所 有 属性 的 属性 值 进行 扩展 的 ， 它 有 两 个 重要 的 限制 : 对 每 个 属性 涉及 面 最 广 的 扩展 
省 略 不 做 ， 同 样 累计 数 为 零 的 扩展 也 省 略 不 做 。 根 节点 的 素 引 为 0， 因 此 对 于 根 节 点 来 说 ， 所 
有 属性 都 得 到 扩展 ， 但 同样 受 限 于 上 述 两 个 限制 。 

例如 ， 图 6-22b 中 根 节点 没有 对 刮 风 = false 进行 扩展 ， 因 为 有 8 个 这 样 的 实例 ， 是 涉及 面 
最 广 的 扩展 : 数据 中 出 现 false 值 的 次 数 大 于 出 现 true 值 的 次 数 。 类 似 地 ， 节 点 湿度 = normal 
也 没有 对 刮 风 = false 进行 扩展 , 因为 湿度 = normal 的 所 有 实例 中 刊 风 为 false 值 是 最 为 普遍 的 。 








188 -R MEFILASRK 





实际 上 ， 在 这 个 例子 中 第 二 条 限制 ， 即 累计 数 为 零 的 扩展 省 略 不 做 不 会 用 到 ， 因 为 第 一 条 限 
制 已 经 排除 了 任何 以 湿度 = normal 以 及 刊 风 = false 为 开始 的 测试 ， 而 这 正 是 图 6-22a 中 唯一 黑 
计 值 为 0 的 情形 。 
树 的 每 个 节点 代表 某 种 县 体 属 性 值 组 合 的 发 生 。 从 树 中 获取 某 种 组 合 出现 的 累计 数 是 非 
常 直 接 的 方法 。 但 是 由 于 每 个 属性 最 普遍 的 扩展 都 被 省 略 ， 造 成 许多 非 零 累计 数 不 能 在 树 中 
清楚 地 表现 出 来 。 例 如 ， 湿 度 = high 和 玩 = yes 的 组 合 在 数据 中 出 现 了 3 次 ,但 在 树 中 却 没 有 
这 个 节点 。 然 而 ， 结 论 是 任何 累计 数 都 可 以 明确 地 由 储存 在 树 中 的 累计 数 计算 获得 。 
这 里 有 个 简单 的 例子 。 图 6-22b 中 没有 包含 湿度 = normal, HA = true， 玩 = yes 的 节点 。 
但 是 ， 它 显示 了 3 个 湿度 = normal} BAM = true 的 实例 ， 其 中 有 1 个 实例 玩 属性 值 不 是 yes 。 
′ 这 说 明 必 有 2 个 实例 玩 =yes 。 现 在 来 看 一 个 更 为 巧妙 的 情形 。 湿 度 = high, AM = true, 玩 = 
no 出 现 多 少 次 ? 一 眼看 上 去 似乎 不 可 能 知道 答案 ， 因 为 根本 就 没有 湿度 = high 的 分 支 。 然 而 ， 
可 以 用 刊 风 = true， 玩 = no 的 累计 数 (3) 减 去 温度 = normal, HIA = true, He = no 的 累计 数 (1) 
推导 出 来 。 从 而 得 出 正确 累计 值 是 2。 
这 个 方法 适用 于 任何 属性 分 支 以 及 任何 属性 值 组 合 ， 但 也 许 需 要 递归 应 用 。 例 如 ， 要 得 
到 湿度 = high, AK = false， 玩 = no 的 累计 数 ， 需 要 知道 刊 风 = false， 玩 = no 的 累计 数 以 及 
湿度 = normal, HJA = false， 玩 = no 的 累计 数 。 前 者 可 以 通过 从 玩 = no 的 累计 数 (5) 中 减 去 
HIA = true， 玩 = no 的 累计 数 (3) 而 获得 ， 结 果 是 2。 后 者 可 以 通过 从 湿度 = normal， 玩 = 
no 的 累计 数 (1) 中 减 去 湿度 = normal, HJA = true, He = no 的 累计 数 (1) 而 获得 ， 结 果 为 0。 
因此 正确 答案 一 定 是 有 2 -0 = 2 个 实例 湿度 = high, FM = false, 玩 = no. 
只 有 当 数 据 含 有 成 千 个 实例 时 ， 才 能 显示 AD 树 的 价值 所 在 。 很 明显 对 于 天 气 数据 AD 树 
并 没有 帮助 。 它 们 不 能 有 益 于 小 的 数据 集 的 事实 意味 着 在 实践 中 树 结构 向 所 有 方向 扩展 一 直 
282} 到 叶 节 点 是 没有 多 大 意义 的 。 通 常 可 以 应 用 一 个 截止 参数 :， 在 覆盖 实例 数量 少 于 k 的 节点 上 ， 
保留 的 是 指向 这 些 实例 的 指针 序列 ， 而 不 是 指向 下 其 他 节点 的 指针 序列 。 从 而 使 树 结构 更 小 、 
效率 也 更 高 。 


6.7.5 讨论 


用 于 贝 叶 斯 网 络 学 习 的 K2 算 法 是 由 Cooper 和 Herskovits (1992 年 ) 介绍 的 。 贝 叶 斯 评分 
度量 是 Heckerman 等 在 1995 年 提出 的 。TAN 算 法 是 Friedman 等 在 1997 年 提出 的 ， 他 还 对 复 网 
进行 了 讨论 。Grossman 和 Domingos (2004 年 ) 展示 了 怎样 利用 条 件 似 然 为 网 络 进行 评分 。 
Guo 和 Greiner (2004 年 ) 对 贝 叶 斯 网 络 分 类 器 的 评分 度量 进行 了 广泛 的 比较 。Bouckaert 
(1995 年 ) 对 平均 子 网 络 进行 了 探讨 。AD 树 是 由 Moore 和 Lee (1998 年 ) 介绍 并 分 析 的 ， 在 4.9 
节 中 介绍 的 tD 树 和 球 树 也 是 由 Andrew Moore 提 出 的 。 在 近期 文献 中 ，Komarek 和 Moore 
(2000 年 ) 介绍 了 用 于 递增 学 习 的 AD 树 ， 这 种 树 对 于 含 很 多 属性 的 数据 集 也 能 有 更 高 的 效率 。 

我 们 只 是 粗 粗 掠 过 贝 叶 斯 网 络 学 习 的 表层 。 留 下 残缺 值 、 数 值 属性 以 及 隐藏 属性 都 还 没 
有 讨论 ， 也 没有 讲述 怎样 在 回归 任务 中 使 用 贝 叶 斯 网 络 。 贝 叶 斯 网 络 是 广泛 的 统计 模型 中 的 
特殊 一 类 ， 称 为 图 形 模型 ， 也 包括 无 向 连 线 的 网 络 ( 称 为 马尔 可 夫 网 络 )。 近 年 来 机 器 学 习 社 

团 对 图 解 模型 (graphical model) 也 赋予 了 极 大 关注 。 








第 7 革 转换 : 处 理 输 入 和 输出 


在 前 -- 章 中 我 们 考察 了 大 量 的 机 器 学 习 方 法 : 决策 树 、 决 策 规则 、 线 性 模型 、 基 于 实例 
的 方案 、 数 值 预 测 技术 、 聚 类 算 革 以 及 贝 叶 斯 网 络 。 所 有 这 些 方 法 都 是 合理 、 成 熟 的 技术 ， 
可 用 于 解决 实际 的 数据 挖 据 问题 。 

但 是 成 功 的 数据 挖 据 远 不 只 是 牵涉 到 选择 某 种 学 习 算法 并 应 用 于 数据 。 许 多 学 习 算 法 要 
用 到 各 种 不 同 的 参数 ， 需 要 选择 合适 的 参数 值 。 在 多 数 情 况 下 ， 选 择 适 当 的 参数 可 以 使 所 获 
结果 得 到 显著 改善 ， 而 合适 的 选择 则 是 要 视 手 头 的 具体 数据 而 定 的 。 例 如 ， 决 策 树 可 以 选择 
修剪 或 不 修剪 ， 选择 前 者 又 需要 选择 修剪 参数 。 在 基于 实例 的 k 最 近邻 学 习 方法 中 ， 则 需要 选 
择 k 值 。 更 为 常见 的 ， 则 是 需要 从 现 有 的 方案 中 选择 学 习 方 法 本 身 。 在 所 有 情况 下 ， 合 适 的 选 
择 是 由 数据 而 决定 的 。 

人 在 数据 上 试用 几 种 不 同 的 方法 ， 并 使 用 几 种 不 同 的 参数 值 ， 然 后 观测 哪 种 情况 结果 最 好 ， 
是 个 诱 人 的 方法 。 不 过 要 当心 ! 最 佳 选 择 并 不 一 定 是 在 训练 数据 上 获得 最 好 结果 的 那个 。 我 
们 曾 反 复 提醒 要 注意 过 度 拟 合 问 题 ， 过 度 拟 合 是 指 一 个 学 习 模 型 与 用 于 建 模 的 某 个 具体 训练 
数据 集 太 过 匹配 。 假 设 在 训练 数据 上 所 表现 的 正确 性 能 代表 模型 将 来 应 用 于 实践 中 的 新 数据 
上 的 性 能 水 准 ， 这 个 想法 是 不 正确 的 。 

所 幸 的 是 在 第 5 章 中 已 经 讨论 了 对 于 这 个 问题 的 解决 方法 。 有 两 种 较 好 的 方法 可 用 来 估计 
一 个 学 习 方法 的 预期 真实 性 能 表现 : 在 数据 源 充 足 的 情况 下 ， 使 用 一 个 与 训练 数据 集 分 离 的 
大 数据 集 ; 在 数据 较 少 的 情况 下 则 使 用 交 又 验证 法 (第 5.3 节 )。 在 后 一 种 情况 下 ， 在 实践 中 
的 典型 应 用 方法 是 单 次 的 10 折 交 双 验证， 当然 要 得 到 更 为 可 靠 的 估计 需要 将 整个 过 程 重复 10 
次 。 一 旦 为 学 习 方法 选 定 了 合适 的 参数 ， 就 可 以 使 用 整个 训练 集 ( 即 所 有 训练 实例 ) 来 生成 
将 要 应 用 于 新 数据 的 最 终 学 习 模 型 。 

注意 在 调整 过 程 中 使 用 所 选 的 参数 值得 到 的 性 能 表现 并 不 是 对 最 终 模型 性 能 的 一 个 可 靠 
估计 ， 因 为 最 终 模型 对 于 调整 中 使 用 的 数据 有 过 度 拟 合 的 倾向 。 要 确定 它 的 性 能 究竟 如 何 ， 
需要 另外 -个 大 的 数据 集 ， 这 个 数据 集 须 与 学 习 过 程 和 调整 过 程 中 所 使 用 的 数据 隔离 开 来 。 
在 进行 交 义 验证 时 也 是 如 此 ， 参 数 调整 过 程 需要 … 个 “内 部 ”交叉 验证 ， 误 差 估计 还 需要 一 
个 “外 部 ” 交 义 验证 。 采 用 10 折 交叉 验证 法 将 使 学 习 方 法 运行 100 次 。 总 而 言 之 ， 当 评估 一 个 
学 习 方 案 的 性 能 时 ， 所 进行 的 任何 参数 调整 过 程 都 应 被 看 作 是 训练 过 程 的 一 部 分 。 

当 把 机 器 学 习 技术 应 用 于 实际 的 数据 挖掘 问题 时 ， 还 有 其 他 一 些 重要 程序 可 以 大 大 提高 
成 功率 ， 这 正 是 本 章 的 主题 。 它 们 形成 了 一 种 (操纵 ) 数据 的 技术 ， 将 输入 数据 设计 成 一 种 
能 适合 所 选 学 习 方 案 的 形式 ， 将 输出 模型 设计 得 更 为 有 效 。 你 可 以 把 它们 看 成 是 能 应 用 于 实 
际 的 数据 挖 抉 问题 以 提高 成 功 几 率 的 -一些 雇 容 。 有 了 时 奏效 ， 有 时 无 效 。 根 据 目前 的 技术 发 展 
水 平 来 看 ， 很 难 预言 它们 是 否 有 用 。 在 这 种 以 尝试 和 误差 率 作为 最 为 可 靠 的 指导 的 领域 中 ， 
特别 重要 的 恐怕 就 是 灵活 运用 并 且 理 解 这 些 诀窍 了 。 

先 来 考察 对 输入 进行 修改 ,使 之 更 适合 于 学 习 方 案 的 四 种 不 同方 法 属性 选择 、 属 性 离 
散 、 数 据 转 换 和 数据 清理 。 首先 来 考虑 属性 选择 。 在 许多 实际 情况 中 ， 有 太 多 的 属性 需要 学 
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习 方 案 进行 处 理 ， 其 中 部 分 或 绝 大 多 数 属性 是 明显 无 关 或 重复 的 。 因 此 ， 需 要 对 数据 进行 顶 
处 理 ， 从 中 挑选 出 “个 属性 子 集运 用 于 学 习 中 。 当 然 ， 学 习 方 案 本 身 也 会 进行 属性 选择 ， 忽 
略 无 关 的 和 重复 的 属性 ， 然 而 在 实际 操作 中 进行 预选 、 常 常 能 提高 它们 的 性 能 表 纲 。 例 如 ， 
试验 显示 增加 无 用 的 属性 会 导致 诸如 决策 树 和 规则 、 线 性 回归 、 基 于 实例 学 习 器 以 及 聚 类 
等 学 习 方法 的 性 能 表现 变 粳 。 

如 果 任 务 牵涉 到 数值 属性 而 所 选 的 学 习 方 案 只 能 处 理 分 类 问题 时 ,数值 属 性 的 离散 化 就 
是 绝对 必要 的 。 如 果 将 属性 进行 预先 离散 处 理 ， 能 够 处 理 数 值 属 性 的 方案 、 经 常 能 获得 更 好 
的 结果 或 工作 更 加 迅速 。 反 过 来 ， 也 有 需要 将 类 别 属 性 表示 为 数字 形式 的 〈 虽 然 不 常见 )， 我 
们 也 将 讨 沦 适 用 于 这 种 情况 的 技术 

数据 转换 包含 很 多 技术 .曾经 在 第 2 章 的 关系 数据 以 及 第 6 章 的 支持 向 量 机 中 遇 到 过 一 -种 
转换 技术 ， 它 增加 新 的 合成 属性 日 的 是 要 将 现 有 的 信息 表现 成 ~- 种 适合 学 习 方 案 的 形式 。 
还 有 那些 不 那么 依赖 于 具体 数据 控 搬 问题 的 、 更 为 通用 的 技术 ， 包 括 主 分 量 分 析 和 随机 投影 。 

不 清洁 的 数据 困扰 次 数据 挖掘 工作 。 在 第 2 章 中 曾 强 调 认识 数据 的 必要 性 ， 了 解 所 有 不 同 
属性 的 含义 、 对 属性 进行 编码 所 使 用 的 惯例 、 残 缺 值 及 重复 数据 的 意义 、 测 量 干扰 、 排 版 印 
制 错误 以 及 系统 误差、 其 至 是 蓄意 的 。 各 种 简单 的 可 视 化 经 常 在 助 于 解决 这 类 问题 。 然 而 ， 
也 有 -此 自动 清理 数据 、 侦 察 例外 以 及 发 现 异常 的 方法 。 

在 学 习 了 怎样 修改 输入 之 后 ， 转 向 设计 机 器 学 习 方案 的 输出 结果 问题 。 特 别 是 要 考察 把 
从 数据 所 得 的 不 同 模 型 组 合 起 来 的 技术 。 其 中 比 肖 着 一些 出 平 意料 的 东西 。 比 如 ， 肥 得 训练 
数据 后 ， 从 中 获取 几 个 不 同 的 训练 集 ， 从 每 个 训练 集 上 学 习 一 个 模型 ， 再 将 各 个 结果 模型 组 
合 起 来 ， 这 种 方法 经 常 能 获得 优势 ! 有 可 能 将 “个 相对 弱势 的 学 习 方 法 转变 成 一 个 极其 强大 
的 方法 〈 我 们 将 从 某 种 精确 意义 上 来 进行 解释 )。 另 外 ， 如 果 现 存 几 种 学 习 方法 可 供 选择 ， 使 
用 所 有 的 方法 然后 将 结果 组 合 起 来 .而 不 是 【使 用 交叉 验证 ) 从 中 选择 最 佳 方案 ， 这 样 也 许 
会 更 有 优势 ， 最后. 将 多 类 学 习 问 题 当 作 二 类 问题 来 建 模 的 标准 方法 ， 通 过 .一 种 简单 而 灵活 
的 技术 能 得 到 改善 

许多 结果 都 是 相当 反 直觉 的 ， 至 少 第 -眼看 上 去 是 这 样 的。 同时 采纳 多 种 不 同 的 模型 怎 
么 可 能 是 个 好 建议 呢 ? 你 怎 2 “本 能 比 选 用 性 能 表现 最 佳 的 模型 做 得 更 好 呢 ? 难道 所 有 这 些 都 
是 杰 与 主张 简单 化 的 Occam 潮 习 理 论 背 道 而 驰 吗 ”怎么 可 能 通过 组 合 普通 的 模型 获得 一 流 的 
性 能 表现 ?” 但 是 邯 虑 由 多 人 组 成 的 委员 会 做 出 的 决定 ， 通 常 能 比 由 单个 专家 所 做 出 的 更 为 明 
智 。 问 顾 下 伊 瞎 鸠 鲁 的 观点 、 击 对 各 种 不 则 的 解释 时 ， 必 须 保留 所 有 的 。 设 想 有 -- 群 专家 ， 
虽然 没有 -个 人 是 能 够 完全 胜任 的 ， 伺 牌 个 人 都 在 某 个 特定 的 领域 内 有 过 人 之 处 。 在 努力 理 
解 这 些 方法 是 如 何 .[ 作 的 过 程 中 、 研 究 者 们 揭示 了 能 获得 更 好 改善 的 各 种 联系 和 环节 。 

田 个 不 寻常 的 事实 是 分 类 性 能 常 可 以 通过 扩充 利用 大 量 没 有 类 标签 的 数据 ， 换 勾 话 说 
就 是 类 值 未 知 的 数据 而 得 到 改善 。 与 其 说 这 像 是 常识 ， 还 不 如 说 这 更 像 是 -条 往 上 游 流 消 的 
河流 或 是 一 台 永 动机 。 但 如 果 这 确实 是 真 的 我 们 将 作 第 7.6 节 中 说 明 ， 它 将 具有 很 重要 的 实 
践 意义 、 因 为 在 许多 情况 下 有 类 标的 数据 很 少 ， 而 没有 类 标的 数据 却 很 多 。 请 继续 往 下 读 ， 
准备 好 领受 更 多 的 惊讶 。 


7.1 属性 选择 
多 数 机 器 学 习 算法 都 是 要 学 习 哪 些 属性 最 适合 用 于 做 决策 。 例 如 ， 决 策 树 是 在 每 个 节点 
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挑选 最 有 希望 成 功 的 属性 进行 分 歼 的 ， 从 理论 上 讲 决 不 选择 无 关 的 或 是 无 用 的 属性 。 属 性 越 
多 ， 从 理论 上 看 ， 需 要 更 强 的 识别 能 力 ， 不 能 更 差 .“ 理 论 上 和 实践 中 有 何 差别 ? ”这 是 个 老 
问题 。 答 案 是 “从 理论 上 看 理论 和 实践 没有 差别 ， 但 在 实践 中 有 差别 .” 这 里 也 一 样 ， 在 实 
践 中 ， 往 数据 集 里 添加 无 关 或 干扰 属性 ， 经 常 使 机 器 学 习 系 统 “糊涂 ”。 

决策 树 学 习 器 (C4.5) 的 实验 显示 , 往 标准 数据 集中 添加 一 个 随机 的 二 值 属 性 ,属性 值 由 
PERS AL a RE TPE. 这 会 影响 分 类 性 能 , 导致 性 能 变 差 ( 在 这 种 测试 情形 中 下 降 了 5 多 至 10% ) 。 
变 莽 的 原因 是 在 树 的 某 些 节点 处 ， 这 个 无 关 的 属性 被 不 可 避免 地 选择 为 决定 分 支 的 属性 ， 导 
致使 用 测试 数据 测试 时 产生 随机 误差 。 决 策 树 学 习 的 设计 是 非常 巧妙 的 ， 能 在 每 个 节点 挑选 
菜 适 合 的 硅 性 进行 分 裂 ， 怎 么 会 发 生 这 种 情形 的 昵 ?” 原 因 也 很 微妙 。 随 着 程序 渐渐 向 树 的 下 
层 运 行 、 能 对 属性 选择 决定 有 帮助 的 数据 变 得 越 来 越 少 。 在 某 个 节点 ， 数 据 极 少 ， 随 机 属性 
碰巧 看 起 来 较 好 。 由 于 每 层 的 节点 数量 是 随 层 数 按 指 数 级 增加 的 ， 这 个 无 赖 属性 在 某 处 看 起 
来 较 好 的 儿 率 也 随 着 树 的 深 度 成 倍增 加 。 真 正 的 问题 是 树 总 是 会 到 达 某 个 深度 ， 那 里 只 存在 
少量 的 数据 可 用 于 属性 选择 。 即 使 数据 集 较 大 ， 也 不 能 避免 这 个 问题 ， 只 是 树 可 能 更 深 而 已 。 

分 治 决策 树 学 习 器 和 割 治 规则 学 习 器 都 存在 这 个 问题 ， 因 为 作为 判断 基础 的 数据 数量 一 
直 在 减少 .基于 实例 的 学 习 器 非常 容易 受 无 关 属 性 的 影响 ， 因 为 它们 始终 是 在 局 部 近邻 范围 
内 工作、 每 个 决策 只 考虑 少数 几 个 实例 便 做 出 。 实 际 上 ， 基 于 实例 学 习 法 要 达到 某 个 预 设 的 
性 能 水 平 ， 所 需 的 训练 实例 数量 是 随 无 关 属 性 的 数量 按 指 数 级 增加 的 。 相 反 ， 朴 素 贝 叶 斯 不 
会 将 实例 空间 分 割 成 碎片 并 忽略 无 关 属 性 。 它 假设 所 有 属性 都 是 相互 独立 的 ， 这 个 假设 正 适 
全 (处理) 随机 “干扰 ”属性 。 但 也 正 是 由 于 这 个 假设 ， 朴 素 贝 叶 斯 在 另 一 方面 却 付 出 了 重 
大 代价 ， 由 于 加 入 重复 属性 使 其 工作 受挫 。 

无 关 的 干扰 会 使 决策 树 和 规则 学 习 器 的 性 能 降级 是 令 人 吃惊 的 。 更 令 人 惊讶 的 是 相关 属 
性 也 会 是 有 害 的 。 例 如 ， 假 设 在 -- 个 二 类 数据 集中 加 入 -… 个 新 的 属性 ， 大 多 数 情形 (65%) 
这 个 属性 值 与 预测 的 类 值 是 相同 的 ， 而 其 余 情 形 则 是 相反 的 ， 这 两 种 情形 在 数据 集中 是 随机 
分 布 的 。 使 用 标准 数据 集 进行 试验 的 结果 显示 ， 这 会 造成 分 类 正确 率 下 降 (在 这 个 试验 情形 
下 为 1% 至 5% )。 问 题 出 在 新 属性 在 决策 树 的 上 层 便 被 (自然 ) 选中 用 以 分 裂 。 存 在 与 下 层 节 
点 处 的 是 分 割 了 的 实例 集 ， 以 致 其 他 属性 选择 只 能 基于 稀 蕊 的 数据 。 

由 于 无 关 属 性 在 多 数 机 器 学 习 方 案 中 存在 负面 影响 ， 通 常 在 学 习 之 前 先进 行 属性 选择 ， 
只 保留 一 些 最 为 相关 的 属性 ， 而 将 其 他 属性 都 去 除 。 选 择 相关 属性 最 好 的 方法 是 人 工 选择 ， 
它 是 基于 对 学 习 问 题 的 深入 理解 以 及 属性 的 真正 含义 而 做 出 的 选择 。 然 而 ， 自 动 方法 也 是 很 
有 用 的 。 通 过 去 除 不 适当 的 属性 以 降低 数据 的 维 数 ， 能 改善 学 习 算法 的 性 能 。 还 能 提高 速度 ， 
即使 属性 选择 可 能 会 带 来 很 多 计算 。 更 重要 的 是 ， 维 数 降 低能 形成 一 个 更 为 紧凑 、 更 易 理 解 
的 目标 概念 表达 方式 ， 使 用 户 的 注意 力 集中 企 最 为 相关 的 变量 上 。 
7.1.1 独立 于 方案 的 选择 

选任 个 好 的 属性 子 集 ， 有 了 两 种 根本 个 林 的 方法 。… 种 是 根据 数据 的 普遍 特性 做 出 一 个 
SCTE: ob AR RIN A PRL ORE OPA PR. A BR Ete (filter) 
Hik. WA ERE AEE IPRA A, See ae he) E E ARA IRETE. EPR 
为 包装 (wrapper) Hik, ARAL Ue Pt Rh. a REE RET 
时 -个 属性 与 类 选 拼 是 相关 的 ， 那 么 要 对 某 个 属性 了 集 做 独立 评估 便 很 容易 了 。 虽 然 人 们 提 
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出 了 几 种 不 同 的 建议 ， 但 是 目前 还 没有 能 被 一 致 接纳 的 “相关 性 ”量度 。 

在 属性 选择 中 ，… 种 简单 的 独立 于 方案 的 方法 便 是 使 用 足够 的 属性 来 分 割 实例 空间 ， 使 
所 有 的 训练 实例 分 隔 开 来 。 例 如 ， 如 果 只 考虑 一 个 或 两 个 属性 ， 通 常会 有 几 个 实例 都 含有 相 
同属 性 值 组 合 ; 而 另 -个 极端 情形 是 考虑 整个 属性 集 便 能 区 分 每 个 实例 ， 因 此 不 存在 所 有 属 
性 值 都 是 相 辣 的 两 个 实例 。( 虽说 不 是 必然 的 ， 但 是 数据 集 有 时 会 存在 具有 相同 属性 值 的 实例 
却 分 属于 不 同类 的 情形 . ) 直觉 让 我 们 选择 能 区 分 所 有 实例 的 最 小 的 属性 集 。 这 可 以 通过 穷 举 
搜索 很 容易 地 找到 ， 虽 然 计算 相当 耗费 。 不 幸 的 是 ， 这 个 源 于 训练 数据 上 的 、 有 具有 强烈 偏差 
倾向 的 属性 集 ， 它 的 一 致 性 并 不 能 得 到 保证 ， 而 且 会 导致 过 度 拟 合 ， 算 法 可 能 会 着 入 不 必要 
的 工作 ， 用 以 修复 只 是 由 于 某 些 干扰 数据 引起 的 不 一 致 性 。 

机 器 学 习 算法 可 用 于 属性 选择 。 例 如 ， 可 先 在 整个 数据 集 上 应 用 决策 树 算 法 ， 然 后 选择 
那些 在 决策 树 中 真正 用 到 的 属性 。 如 果 下 一步 只 是 要 建 另 -- 个 树 ， 那 么 这 个 属性 选择 不 会 产 
生 任 何 效果 ; 然而 这 个 属性 选择 将 对 不 同 的 学 习 算法 产生 影响 。 比 方 说 ， 众 所 周知 ， 最 近邻 
算法 很 容易 受 无 关 属 性 的 影响 ， 它 便 可 以 通过 先 建 一 个 决策 树 过 滤 属 性 而 使 性 能 得 到 提高 。 
最 终 所 得 的 最 近邻 结果 性 能 比 用 于 过 滤 的 决策 树 的 性 能 更 好 。 再 举 一 个 例子 ， 在 第 4 章 中 提 到 
的 简单 的 单 规则 CIR) 方案 ， 通 过 对 不 同属 性 分 支 的 效果 进行 评估 ， 可 用 于 决策 树 学 习 前 的 
属性 选择 (然而 像 1R 这 样 的 基于 误差 的 方法 也 许 不 是 属性 排序 的 理想 选择 ， 我 们 将 在 下 面 讨 
论 有 指导 离散 所 相关 的 问题 时 看 到 这 点 )。 通 常 只 用 排 在 前 两 、 三 位 的 属性 构建 的 决策 树 也 能 
达到 同样 好 的 性 能 ， 而 且 这 个 树 更 容易 理解 。 在 这 个 方法 中 ， 用 户 要 决定 使 用 多 少 属 性 来 构 
建 这 个 决策 树 。 

男 一 个 可 行 的 算法 是 建 一 个 线性 模型 ， 比 如 一 个 线性 支持 向 量 机 ， 根 据 系数 的 大 小 来 进 
行 属性 排序 。 “种 更 为 精密 复杂 的 方法 是 将 这 个 算法 重复 运行 。 先 建 一 个 模型 ， 根 据 系 数 进 
行 属性 排序 ， 将 排 在 最 高 位 的 属性 移 除 ， 然 后 重复 这 个 过 程 直到 所 有 属性 都 被 移 除 。 这 种 递 
归属 性 消除 (recursive feature elimination) 的 方法 应 用 于 某 些 数据 集 上 (譬如 识别 重要 基因 
用 于 癌症 分 类 ) 与 只 用 单个 模型 进行 属性 排序 的 方法 相 比较 ， 能 获得 更 好 的 结果 。 对 于 这 两 
种 方法 来 说 ， 保 证 属性 具有 相同 的 衡量 尺度 是 很 重要 的 ， 否 则 这 些 系数 是 不 可 比 的。 注意 这 
些 技术 只 是 用 于 产生 … 个 属性 排序 ， 还 必须 应 用 其 他 技术 来 决定 适当 的 属性 数量 。 

还 可 以 使 用 基于 实例 的 学 习 方 法 来 进行 属性 选择 。 从 训练 集中 随机 抽样 ， 检 查 近邻 的 同 
类 和 不 同类 实例 记录 ， 即 “近邻 击 中 ”(near hits) 和 “近邻 错失 ”(near miss)。 如 果 近 邻 击 
中 的 某 个 属性 有 不 同 值 ， 这 个 属性 看 来 似乎 是 不 相关 的 ， 那 么 它 的 权 值 就 要 降低 。 另 - -方面 ， 
如 果 近 邻 错失 的 某 个 属性 有 不 同 值 ， 这 个 属性 看 来 是 相关 的 ， 它 的 权 值 就 要 增加 。 这 是 基于 
实例 学 习 的 属性 加 权 的 标准 程序 ， 在 6.4 节 中 曾 描述 过 。 在 这 个 操作 过 程 重复 多 次 后 ， 便 进行 
选择 操作 : 只 选择 权 值 为 正 数 的 属性 。 正 如 同 标准 的 递增 基于 实例 的 学 习 ， 由 于 样本 排列 的 
次 序 不 同 ， 每 次 重复 过 程 都 会 得 到 不 同 的 结果 。 这 点 可 以 通过 使 用 所 有 的 训练 实例 并 考虑 每 
个 实例 所 有 的 近邻 击 中 和 近邻 错失 来 避免 。 

一 个 更 为 严重 的 缺点 是 无 法 探 察 出 重复 属性 、 因 为 它 与 另 … 个 属性 是 相关 的 ， 极 端的 情 
形 是 ， 两 个 相同 的 属性 被 同样 处 理 ， 不 是 都 被 选择 便 是 都 不 被 选择 。 有 人 提议 了 一 种 修正 方 
法 似乎 有 助 于 这 个 问题 的 解决 ， 即 在 计算 最 诞 部 击 中 和 错失 时 考虑 当前 的 属性 权 值 。 
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性 有 较 大 关联 但 几乎 没有 内 部 关联 。 两 个 名 词性 属性 4 和 8 之 间 的 关系 可 用 对 称 不 定性 
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(symmetric uncertainty) 来 衡量 : 
H(A)+ A(B)—- H(A, B) 
H(A)+ H(B) 


HÆ4.3 PUR AR. BEDS RHR A, HA BDRAMBHKA I, 由 
4 和 8 的 所 有 组 合 值 的 联合 概率 计算 出 来 的 。 对 称 不 定性 总 是 在 0 和 1 之 间 。 基 于 相关 性 ， 
( correlation-based) 的 属性 选择 决定 一 个 属性 集 的 优良 性 是 采用 | 


Zvao SYA, 4) 


这 里 C 是 类 属性 ，i 和 /包括 属性 集 里 的 所 有 属性 。 假 设 子 集中 所 有 m 个 属性 与 类 属性 及 另 一 属 ， 
性 密切 相关 ， 分 子 就 为 m， 分 母 为 Ym* ， 亦 即 m， 因 此 得 到 最 大 值 1 (最 小 值 为 0)。 显 然 这 不 ， 
理想 ， 因 为 我 们 要 避免 重复 属性 ， 而 这 个 属性 集中 的 任何 子 集 的 衡量 值 都 会 是 1。 当 使 用 这 个 ， 
标准 来 寻找 一 个 好 的 属性 了 集 时 ， 便 是 要 选择 最 小 的 子 集 来 打破 平局 。 | 


7.1.2 搜索 属性 空间 


属性 选择 的 大 多 数 方法 都 要 牵涉 到 在 属性 空间 搜索 最 有 可 能 做 出 最 好 类 预测 的 属性 子 集 。 
图 7-1 展 示 了 我 们 最 熟悉 不 过 的 天 气 数据 的 属性 空间 。 可 能 的 属性 子 集 数目 随 属性 数量 的 增加 
呈 指 数 增长 ， 使 得 穷 举 搜索 不 切实 际 ， 它 只 适合 最 简单 的 问题 。 


U(A, B) =2 





图 7-1 天 气 数据 集 的 属性 空间 
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基本 十， 搜索 方向 是 两 个 方向 中 的 一 个 ， 即 图 中 从 上 往 下 或 是 从 下 往 上 。 在 每 个 阶段 ， 
通过 增加 或 删除 -个 属性 ， 来 改变 目前 的 属性 子 集 。 朝 下 的 方向 ， 开 始 时 是 不 含 任何 属性 ， 
然后 每 次 增加 -个 、 称 为 正 向 选择 。 朝 上 的 方向 ， 开 始 时 包含 了 所 有 属性 ， 然 后 每 次 减少 一 
个 、 称 为 反 向 消除 。 * 

在 正 向 选择 时 ， 每 个 当前 子 集 没 有 包含 的 属性 被 暂时 加 入 ， 然 后 对 结果 子 集 的 属性 进行 
评估 ， 徊 如 使 用 下 节 中 要 描述 的 交叉 验证 。 评 估 产 生 一 个 数字 结果 用 以 衡量 子 集 的 期 望 性 能 。 
通过 这 个 方法 对 依次 添加 每 个 属性 所 产生 的 结果 进行 定量 ， 选 择 其 中 最 好 的 ， 然 后 继续 。 如 
果 向 目前 的 子 集中 添加 任何 … 个 属性 都 不 能 有 改善 时 ， 即 终止 搜索 。 这 是 一 个 标准 的 贪心 搜 
索 程 序 、 能 保证 找到 - -个 局 部 的 ， 不 必 是 全 局 的 、 最 好 的 属性 集 。 反 向 消除 操作 采用 完全 类 
似 的 模式 。 在 这 两 种 情形 中 ， 对 于 较 小 的 属性 集 经 常 引用 -- 个 微小 偏差 。 在 正 向 选择 中 ， 如 
果 要 继续 搜索 ， 评 估 值 的 增加 必须 要 超出 某 个 预先 设 定 的 最 小 增 量 。 对 于 反 向 消除 也 采用 类 
似 的 方法 。 

还 存在 一 些 更 为 精细 复杂 的 搜索 方法 。 正 向 选择 和 反 向 消除 法 可 以 结合 成 双向 搜索 ， 同 
样 … 开 始 可 以 包含 所 有 属性 或 者 不 含 任何 属性 。 最 住 优先 搜索 (best-first search) 不 是 在 性 能 
开始 下 降 时 停止 搜索 ， 而 是 保存 到 目前 为 止 已 经 评估 过 的 所 有 属性 子 集 清单 ， 并 按照 性 能 衡 
量 好 坏 排 序 的 方法 ， 因 此 它 可 以 重 访 先 前 的 配置 。 只 要 时 间 允 许 它 将 搜索 整个 空间 ， 除 非 是 
采用 某 种 停止 标准 。 限 定 范围 搜索 (beam search) 也 很 类 似 ， 只 是 在 每 个 阶段 截取 属性 子 集 
清单 ， 因 此 它 只 含有 固定 数 晶 的 束 宽 (beam width) 中 最 有 希望 的 候选 对 象 。 遗 传 算法 
(genetic algorithm) 搜索 程序 松散 地 基于 自然 选择 原理 ， 使 用 对 当前 的 候选 子 集 的 随机 摄 动 ， 
而 “进化 出 ”好 的 属性 子 集 。 


7.1.3 特定 方案 选择 


采用 特定 方案 (scheme-specific ) 选择 的 属性 子 集 性 能 表现 是 根据 学 习 方案 仅仅 使 用 这 些 
属性 进行 分 类 的 性 能 来 衡量 的 。 给 定 -个 属性 子 集 ， 正 确 率 是 采用 5.3 节 中 所 述 的 交叉 验证 法 
来 评估 的 。 当 然 ， 其 他 评估 方法 ， 如 在 个 旁 置 集 上 的 性 能 表现 (5.3 节 ) 或 者 使 用 自 引导 估 
计 器 (5.4 节 ) 也 同样 适用 。 

整个 属性 选择 过 程 是 计算 密集 型 的 。 如 果 每 个 评估 都 采用 10 折 交叉 验证 ， 学 习 过 程 要 执 
行 10 次 。 对 于 个 属性 ， 正 向 选择 或 是 反 向 消除 法 评估 时 间 要 乘 以 个 因数 ， 这 个 因数 最 大 可 
达 上 、 对 于 更 为 复杂 的 搜索 ， 这 个 因数 远大 于 此 ， 对 于 穷 举 算法 要 检验 种 可 能 的 属性 子 集 ， 
这 个 因数 可 达 2 。 

已 被 证 实 〈 这 个 方法 ) 在 许多 数据 集 上 都 获得 好 的 结果 。 一 般 来 说 ， 反 向 消除 法 较 正 向 
选择 法 生成 的 属性 集 较 大 ， 分 类 正确 率 较 高 。 原 因 是 性 能 衡量 只 是 一 个 估计 ， 单 一 的 优化 估 
计 导 致 这 两 种 搜索 过 程 过 早 停止 ， 反 向 消除 的 结果 属性 还 过 多 ， 而 正 向 选择 的 结果 属性 还 不 
够 。 如 果 重 点 是 要 理解 所 涉及 的 决策 结构 ， 那 么 正 向 选择 是 很 有 用 的 ， 因 为 它 经 常 是 减少 了 
属性 数目 而 对 分 类 正确 率 的 影响 却 又 很 小 。 实 践 似乎 显示 复杂 的 搜索 技术 并 不 总 是 适当 的 ， 
虽然 它们 在 某 些 情况 下 能 产生 很 好 的 结果 。 

加 速 搜索 过 程 的 .种 方法 是 -- 且 发 现 不 太 可 能 产生 比 另 … 个 候选 子 集 更 高 的 正确 率 ， 便 
立即 停止 对 这 个 属性 子 集 的 评估 。 这 项 工作 是 统计 学 上 的 成 对 显著 性 测试 (significance test) 
工作 ， 它 基 寺 这 个 属性 子 集 所 生成 的 分 类 器 和 所 有 基于 其 他 子 集 的 候选 分 类 器 之 间 进 行 。 两 
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个 分 类 器 对 某 个 测试 实例 分 类 的 性 能 差异 可 表示 为 - 1、0 或 1， 这 是 根据 第 一 个 分 类 器 较 第 二 
个 更 差 、 相 同 或 是 更 好 而 决定 。 可 以 将 成 对 的 tf 测 试 (rtest) (5.5 节 ) 应 用 于 整个 测试 集 上 所 得 
的 这 些 数 字 ， 从 而 有 效 地 将 每 个 实例 的 (分 类 ) 结果 当成 是 一 个 性 能 差异 的 独立 估计 来 处 理 。 
一 旦 能 看 出 一 个 分 类 器 明显 比 另 一 个 差 时 ， 当 然 也 许 不 会 发 生 ， 则 立即 停止 交叉 验证 。 我 们 
可 能 希望 更 积极 地 丢弃 分 类 器 ， 这 可 通过 修改 测试， 计算 一 个 分 类 器 比 另 一 个 更 好 的 概率 至 
少 要 达到 某 个 用 户 指定 的 小 闪 值 。 如 果 这 个 概率 非常 小 ， 我 们 可 以 丢弃 前 面 一 个 分 类 器 ， 因 
为 它 比 后 者 明显 好 的 可 能 性 很 小 。 

这 个 方法 称 为 竞赛 搜索 (race search ) ， 实 施 时 可 以 采用 不 同 的 搜索 策略 。 当 采用 正 向 选 
择 策略 时 、 所 有 可 能 的 单个 属性 添加 同时 进行 竞赛 ， 去 除 那 些 表现 不 够 好 的 。 在 采用 反 向 消 
除 策略 时 ， 所 有 可 能 的 单个 属性 去 除 同时 进行 竞赛 。 模 式 (Schemata) 搜索 是 一 种 为 竞赛 特 
制 的 更 复杂 的 方法 ， 它 要 进行 一 系列 的 迭代 竞赛 ， 每 次 都 要 决定 是 否 要 包含 某 个 具体 属性 。 
竞赛 中 其 他 属性 在 评估 中 包含 或 不 包含 是 随机 的 。 一 旦 竞赛 出 现 一 个 明显 优胜 者 ， 便 开始 下 
一 轮 的 迭代 竞赛 ， 将 优胜 者 作为 起 始点 。 另 一 种 搜索 策略 是 先 将 属性 排序 ， 例 如 利用 它们 的 
信息 增益 (假设 是 离散 的 )， 然 后 对 排序 进行 竞赛 。 这 时 竞赛 包括 不 含 任何 属性 、 排 列 第 一 的 属 
性 、 排 列 前 两 位 的 属性 、 前 三 位 属性 ， 依 次 类 推 。 

无 论 采 取 何 种 方法 ， 特 定 方案 属性 选择 决 不 是 始终 都 能 获得 性 能 提高 的 。 由 于 过 程 的 复 
杂 程度 ， 在 属性 选择 循环 中 包含 了 最 终 机 器 学 习 算 法 的 反馈 效果 使 复杂 度 大 大 增加 ， 非 常 难 
预测 在 何 种 条 件 下 是 有 价值 的 。 正 如 在 许多 机 器 学 习 情况 下 ， 使 用 自己 的 数据 反复 试验 是 最 
终 的 仲裁 者 。 

有 一 种 分 类 器 ， 它 的 特定 方案 属性 选择 是 它 学 习 过 程 的 一 个 重要 部 分 : 决策 表 (decision 
table )。 正 如 在 3.1 节 中 所 提 到 的 ， 学 习 决 策 表 的 全 部 问题 在 于 选择 合适 的 属性 。 通 常 是 通过 
对 不 同属 性 子 集 进行 交叉 验证 ， 选 择 表现 最 好 的 属性 子 集 。 所 幸 的 是 ， 留 一 (leave-one-out) 
交叉 验证 对 于 这 种 分 类 器 来 说 是 非常 廉价 的 。 由 于 添加 或 删除 实例 并 不 改变 表 的 结构 ， 从 由 
训练 数据 产生 的 决策 表 获 得 交叉 验证 误差 ， 仅 仅 是 要 处 理 类 的 累计 以 及 相关 的 表 中 每 个 项 目 。 
属性 空间 的 搜索 通常 是 采用 最 佳 优先 的 方法 ， 因 为 这 个 策略 与 其 他 策略 ， 如 正 向 选择 ， 相 比 
较 在 局 部 最 大 点 被 卡 可 能 性 更 小 。 

让 我 们 用 一 个 成 功 的 故事 来 结束 讨论 。 有 一 种 学 习 方 法 ， 采 用 了 简单 的 特定 方案 属性 选 
择 方 法 并 具有 较 好 表现 ， 那 便 是 朴素 贝 叶 斯 法 。 虽 然 这 个 方法 对 于 随机 属性 处 理 得 相当 好 ， 
但 当 属性 之 间 存 在 依赖 关系 时 ， 特 别 是 在 加 入 了 重复 属性 时 ， 它 存在 误导 的 倾向 。 然 而 ， 使 
用 正 向 选择 算法 ， 当 有 重复 属性 加 入 时 ， 与 反 向 消除 法 相 比 ， 此 法 具有 更 强 的 侦察 力 ， 并 采 
用 一 个 非常 简单 、 几 乎 是 “幼稚 ”的 量度 来 决定 属性 子 集 的 质量 ， 即 采用 学 习 算 法 在 训练 数 
据 集 上 的 性 能 表现 。 在 第 5 章 中 曾 强 调 ， 在 训练 集 上 的 性 能 表现 绝对 不 是 测试 集 性 能 的 可 靠 指 
示 器 。 然 而 、 试验 表 明 对 朴素 贝 叶 斯 法 所 做 的 如 此 简单 的 改进 ， 在 那些 原本 性 能 表现 不 如 其 
他 基于 树 或 基于 规则 分 类 器 的 标准 数据 集 上 ， 现 在 却 能 获得 显著 的 性 能 提高 ， 而 对 于 那些 原 
本 就 表现 较 好 的 数据 集 也 没有 任何 负面 影响 。 选 择 性 的 朴素 贝 叶 斯 法 ， 这 种 学 习 方 法 正如 其 
名 称 ， 是 :种 在 实践 中 可 靠 的 、 性 能 良好 的 机 器 学 习 技 术 。 


7.2 离散 数值 属性 


N 
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一 般 数 据 集 ， 数 值 属性 必须 先 被 “离散 ”成 一 些 不 同 的 值 域 。 即 使 是 能 够 处 理 数值 属性 的 学 
习 算 法 ， 有 了 时 处 理 方法 也 并 不 完全 令 人 满意 。 统 计 罕 类 方法 常 假设 数值 属性 呈正 态 分 布 ， 这 
在 实践 中 时 常 是 不 太 合理 的 假设 。 杆 素 贝 叶 斯 分 类 器 用 于 处 理 数值 属性 的 标准 延伸 法 ， 也 采 
用 同样 的 假设 。 虽然 大 多 数 的 决策 树 和 决策 规则 学 习 器 可 以 处 理 数值 属性 ， 但 是 当 出 现 数 值 
属性 时 ， 由 于 需要 重复 对 属性 值 进行 排序 ， 有 些 分 类 器 工作 变 得 相当 慢 。 由 于 上 述 种 种 原因 
的 存在 产生 了 一 个 问题 ， 在 进行 学 习 之 前 将 数值 属性 离散 成 不 同 的 值 域 ， 访 采取 什么 样 的 方 
法 才 好 ? 

我 们 先前 已 经 看 到 一 些 离散 数值 属性 的 方法 。 在 第 4 章 中 讨论 的 单 规则 (IR) 学 习 方 案 采 
用 了 一 种 简单 而 有 效 的 技术 ， 根 据 属 性 值 将 实例 进行 排序 ， 在 类 出 现 变化 时 设 定 属 性 值 值 域 ， 
除了 每 个 值 域 中 所 含 的 多 数 类 实例 必须 达到 某 个 最 小 数目 (6 个 )， 这 意味 着 每 个 值 域 中 所 含 
的 类 值 是 混合 的 。 这 是 一 种 在 开始 学 习 之 前 能 应 用 于 所 有 连续 属性 的 “全 局 ”化 的 离散 方法 。 

Fa -方面 ,决策 树 学 习 器 是 在 局 部 进行 数值 属性 处 理 ， 在 树 的 每 个 节点 处 ， 当 决定 是 否 
值得 分 支 时 对 属性 进行 检查 ， 并 且 只 在 这 个 节点 处 决定 连续 属性 的 最 佳 分 裂 点 。 虽 然 在 第 6 章 
中 讨论 的 建树 方法 只 考虑 将 连续 属性 一 分 为 二 ， 可 以 想象 在 这 个 节点 做 完全 的 离散 从 而 对 数 
值 属性 进行 多 路 分 裂 。 采 用 局 部 方法 和 全 局 方法 的 优 缺 点 很 清楚 。 局 部 离散 是 为 适应 每 个 节 
点 的 实际 情况 ， 同 一 个 属性 在 树 的 不 同位 置 ， 只 要 看 起 来 适当 ， 会 产生 不 同 的 离散 结果 。 然 
而 ， 随 着 树 的 深度 增长 ， 这 个 决定 是 基于 较 少 的 数据 而 做 出 的 ， 会 影响 到 它 的 可 靠 性 。 如 果 
树 在 修剪 之 前 是 一 直 往 下 扩展 直到 单个 实例 的 叶 节 点 ， 如 同 采用 普通 的 反 向 修剪 法 技术 ， 很 
明显 许多 离散 决定 是 基于 非常 不 充足 的 数据 而 做 出 的 。 

在 应 用 学 习 方法 之 前 采用 全 局 离散 ， 有 两 种 可 能 方法 能 将 离散 了 的 数据 呈现 给 学 习 器 。 
最 明显 的 方法 便 是 把 离散 了 的 属性 当 作 名 词性 属性 来 处 理 ， 每 个 离散 区 间 用 名 词性 属性 的 一 
个 值 来 代表 。 然 而 ， 由 于 离散 了 的 属性 是 从 数值 属性 演变 而 来 ， 它 的 值 是 有 序 的 ， 把 它 当 作 
名 词性 属性 处 理 使 丢弃 了 它 潜在 的 颇 有 价值 的 排序 信息 。 当 然 ， 如 果 学 习 方 案 能 够 直接 处 理 
有 序 属性 ， 解 决 方法 显而易见 ， 将 每 个 离散 了 的 属性 申报 为 “有 序 ” 型 的 属性 。 

如 果 学 习 方 法 不 能 处 理 有 序 属 性 ， 仍 然 有 一 个 简单 的 方法 可 用 来 利用 排序 信息 ， 在 使 用 
学 习 方 法 之 前 ， 将 每 个 离散 了 的 属性 转换 成 一 组 二 值 属性 。 假 设 离散 了 的 属性 有 k 个 值 ， 将 它 
转换 为 -1 个 二 值 属性 ， 每 当 数 据 呈 现 为 第 个 离散 了 的 属性 值 时 ， 便 将 前 i 1 个 二 值 属性 设 
定 为 false， 其 余 的 都 设 为 true。 换 旬 话 说 ， 第 (i ~ D 个 二 值 属性 代表 了 离散 属性 是 否 小 于 ; 。 如 
果 决 策 树 学 习 器 要 分 烈 这 个 属性 ， 它 可 利用 这 个 编码 中 所 隐 含 排序 的 信息 。 注 意 这 个 转换 是 
独立 于 所 应 用 的 具体 离散 方法 的 ， 它 只 是 用 一 组 二 值 属性 来 对 一 个 有 序 属性 进行 编码 。 


7.2.1 无 指导 离散 


离散 问题 有 两 种 基本 方法 。 一 种 是 在 训练 集 实例 类 未 知 的 情况 下 ， 对 每 个 属性 量化 ， 即 
所 谓 的 无 指导 离散 (unsupervised discretization)。 另 一 种 是 在 离散 时 要 考虑 类 属性 ， 即 有 指 
导 离 散 (supervised discretization )。 前 者 只 有 在 处 理 类 未 知 或 类 不 存在 的 豪 类 问题 时 ， 才 有 
可 能 碰 到 。 

离散 数值 属性 的 直观 方法 便 是 将 值 域 分 隔 成 几 个 预先 设 定 的 等 区 间 : 一 个 固定 的 独立 于 
数据 的 尺度 。 通 常 是 在 收集 了 数据 后 进行 。 但 是 ， 如 同 其 他 无 指导 离散 法 一 样 ， 它 存在 某 些 
风险 ， 由 于 使 用 的 等 级 过 于 粗糙 而 破坏 了 在 学 习 阶 段 中 可 能 有 用 的 差别 ， 或 者 不 幸 选择 了 将 
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许多 不 同类 的 实例 不 必要 地 混在 一 起 的 分 隔 边 界 。 

等 区 间 装 箱 (equal-interval binning) 经 常 造成 实例 分 布 非常 不 均匀 : 有 些 箱 中 包含 许多 
实例 ， 而 有 的 却 一 个 也 没有 。 这 样 会 严重 前 弱 属 性 帮助 构建 较 好 决策 结构 的 能 力 。 通 常 ， 允 
许 有 不 同 大 小 的 区 间 存 在 ， 从 而 使 每 个 区 间 内 的 训练 实例 数量 相等 会 更 好 些 。 这 种 方法 称 为 
等 频 区 间 装 箱 法 (equal-frequency binning ) ， 根 据 这 个 轴 上 的 实例 分 布 将 属性 值 域 分 隔 成 几 个 
预先 设 定 的 区 间 ， 有 时 称 为 直方 图 均衡 化 (histogram equalization)。 因 为 观察 结果 区 间 内 容 
的 柱状 图 ， 会 看 到 它 是 完全 平 直 的 。 如 果 把 区 间 数 目 作 为 一 种 资源 ， 这 个 方法 最 适合 不 过 了 。 

然而 ， 等 频 区 间 装 箱 仍然 不 注意 实例 的 类 属性 ， 这 将 导致 不 良 的 分 界 。 例 如 ， 如 果 一 个 
区 间 中 所 有 实例 都 属 一 个 类 ， 而 下 一 个 更 高 的 区 间 中 除了 第 一 个 实例 仍 属于 先前 的 类 ， 其 余 
的 实例 都 属 男 一 个 类 ， 理 所 当然 应 尊重 类 特性 分 隔 ， 将 第 一 个 实例 包括 到 前 一 个 区 间 中 ， 斩 
竹 等 频 特性 以 保全 同 种 特性 是 有 意义 的 。 有 指导 的 离散 ， 即 在 离散 过 程 中 考虑 类 特性 当然 有 
优势 。 然而， 人 们 发 现 等 频 装 箱 能 带 来 很 好 的 结果 ， 至 少 是 在 与 朴素 贝 叶 斯 学 习 法 一 同 应 用 
时 ， 此 时 区 间 个 数 依 数据 而 被 设 定 为 实例 总 数目 的 平方 根 。 这 个 方法 称 为 均衡 :区间 离 散 


( proportional k-interva] discretization )。 


7.2.2 BTR 

由 于 决策 树 形成 过 程 中 所 采用 的 分 裂 数 值 属性 的 方法 在 实践 中 效果 较 好 ， 看 来 采用 递归 
分 裂 区 间 直 至 终止 时 间 ， 从 而 将 其 延伸 成 更 为 普及 的 离散 法 不 失 为 一 个 良策 。 在 第 6 章 中 我 们 
看 到 了 该 如 何 将 实例 按照 属性 值 排序 ， 如 何在 每 个 可 能 的 分 裂 节点 处 考虑 分 裂 结果 的 信息 增 
盘 。 进 行 属性 离散 时 ， 第 一 次 分 裂 一 旦 决定 ， 分 裂 过 程 可 以 在 上 部 值 域 或 下 部 值 域 重复 进行 ， 
采取 递归 依次 类 推 。 

为 了 看 清 在 实践 中 是 如 何 工作 的 ， 再 来 回访 -- 下 (6.1 节 ) 离散 天 气 数据 中 温度 属性 的 例 
子 ， 属 性 值 为 

64 65 68 69 70 71 72 75 80 81 83 .85 


no yes 
yes no yes yes yes no no yes yes no 
yes yes 


(重复 值 已 经 被 到 在 一 起 了 。) 11 处 可 能 的 分 裂 点 的 信息 增 量 按照 常规 方法 计算 。 例 如 ， 温 度 < 
71.5 的 测试 ， 将 值 域 分 裂 为 包含 4 个 yes、2 个 no 对 应 5 个 yes、3 个 no, 其 信息 值 为 
info ([4,2],[5,3]) = (6/14) x info ([4,2]) + (8/14) x info ([5,3]) = 0.939 位 

这 个 值 代表 了 给 出 此 分 袭 后 要 详 述 各 个 yes 和 no 值 所 需 的 信息 总 量 。 我 们 要 寻找 一 种 离散 使 子 
区 间 尽 可 能 地 纯正 ， 因 此 ， 要 选择 信息 值 最 小 的 分 烈 点 (这 等 同 于 要 在 信息 增益 最 大 处 分 裂 ， 
信息 增益 定义 为 未 分 裂 与 分 裂 后 的 信息 值 差 值 )。 如 前 所 述 ， 将 数值 疮 值 辕 于 概念 分 界 区 域 中 
间 位 置 。 

图 7-2 中 标记 为 A 的 曲线 显示 了 第 一 个 阶段 每 个 可 能 的 分 裂 点 的 信息 值 。 最 好 的 分 裂 即 信 
息 值 最 小 处 在 温度 为 84 处 (0.827 位 )， 它 只 是 将 排列 在 最 后 的 、 类 值 为 no 的 实例 从 原先 的 序 
列 中 分 离 出 来 。 在 水 平 轴 底下 标 出 了 实例 的 类 属性 以 便 说 明 。 在 温度 的 低 值 域 64 至 83 ， 再 次 
应 用 这 个 算法 产生 图 中 标记 为 B 的 曲线 。 这 次 最 小 值 在 80.5 (0.800 位 ) ， 将 接 下 来 的 两 个 同属 
yes 类 的 实例 分 离开 。 再 次 在 低 值 域 上 应 用 算法 ， 现 在 是 从 64 到 80， 产 生 标 记 为 C 的 曲线 (图 
中 用 点 线 表 示 与 其 他 曲线 区 别 开 来 ) 。 最 小 值 在 77.5 处 (0.801 位 )， 又 分 离 出 一 个 类 值 为 no 的 
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实例 。 曲 线 D 最 小 值 在 73.5 处 〈0.764 位 )， 分 离 出 两 个 类 值 为 yes 的 实例 。 曲 线 E (再 次 使 用 
虚线 ， 只 是 为 了 易于 分 辨 )， 温度 值 域 从 64 到 72， 最 小 值 在 70.5 处 (0.796 位 )， 它 分 离 出 两 个 
类 值 为 no 和 - -个 类 值 为 yes 的 实例 。 最 后 曲线 F， 值 域 从 64 到 70， 最 小 值 在 66.5 处 (0.4 位 )。 





图 7-2 采用 焙 方法 离散 温度 属性 
最 终 的 温度 属性 离散 结果 如 图 7-3 所 示 。 递 归 只 发 生 在 每 次 分 裂 后 的 前 一 个 区 间 上 ， 仅 仅 
是 这 个 例子 出 现 的 结果 。 一 般 来 说 ， 上 部 和 下 部 区 间 都 将 被 进一步 分 裂 。 每 次 分 裂 下 方 所 示 
的 (字母 ) 是 图 7-2 中 对 应 与 该 次 分 裂 的 曲线 标记 ， 底 部 是 分 裂 点 真正 的 分 裂 值 。 





图 7-3 温度 属性 离散 结果 


从 理论 上 来 看 ， 最 小 的 信息 值 绝对 不 会 出 现在 陋 个 同属 -个 类 的 实例 之 闻 。 这 点 引入 了 
一 个 有 用 的 优化 ， 只 需 考 虑 发 生 在 不 同类 实例 间 的 潜在 分 裂 。 注 意 如 果 区 间 的 类 标签 是 基于 
区 间 的 多 数 类 而 定 的 ， 便 不 能 保证 相 邻 的 区 间 具 有 不 同 的 类 标签 。 你 也 许 会 考虑 将 多 数 类 相 
同 的 区 间 进 行 合并 (例如 ， 图 7-3 中 的 前 两 个 区 间 )， 但 下 面 我 们 将 看 到 (7.2 节 ) ， 通 常 这 样 
做 并 不 好 。 

剩 下 要 考虑 的 问题 就 是 停止 标准 了 。 在 温度 例子 中 ， 大 多 数 经 确认 的 区 间 都 是 “纯粹 的 ”， 
即 区 闻 内 所 有 实例 的 类 值 都 相同 ， 很 清楚 没有 必要 再 去 分 裂 这 样 的 区 间 。( 最 后 一 个 区 间 ， 我 
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们 默认 不 再 分 裂 ， 还 有 70.5 到 73.5 这 个 区 间 ， 是 两 个 例外 。 ) 然而 ， 一 般 情 况 下 问题 并 非 是 如 
此 直截了当 的 。 

要 终止 基于 炳 分 裂 的 离散 程序 的 一 个 好 方法 是 利用 曾 在 第 5 章 中 过 到 的 MDL 原理 。 根 据 
那个 原理 、 要 使 “理论 ”规模 加 上 给 定理 论 详 述 所 有 数据 所 需 的 信息 量 达 到 最 小 值 。 在 这 个 
情况 下 ， 如 果 进 行 分 裂 ，“ 理 论 ” 是 分 裂 点 ， 要 比较 分 裂 和 不 分 裂 理论 的 情形 。 在 这 两 种 情况 
下 ,假设 实例 已 知 ， 但 它们 的 类 标签 未 知 。 如 果 不 做 分 裂 ， 类 别传 输 可 以 通过 将 每 个 实例 的 
标签 进行 编码 来 实现 。 如 果 进 行 分 裂 ， 先 将 分 裂 点 编码 (log:[N- 1 位 ， 这 里 N 是 实例 数量 )， 
然后 是 小 于 这 个 分 裂 点 的 类 ， 再 是 大 于 这 个 分 裂 点 的 类 。 可 以 想象 ， 如 果 这 是 一 个 好 的 分 裂 
点 ， 壁 如 说 ， 所 有 小 于 这 点 的 类 值 都 是 yes ， 所 有 大 于 这 点 的 类 值 都 是 no， 那 么 分 裂 便 会 带 来 
相当 大 的 益处 。 如 果 yes 和 no 的 实例 数量 相等 ， 不 采用 分 裂 时 ， 每 个 实例 耗费 1 位 ， 而 使 用 分 
裂 时 耗费 几乎 是 0、 不 完全 等 于 0。 因 为 类 值 以 及 分 裂 本 身 都 要 被 编码 ， 但 这 个 惩罚 是 被 分 摊 
到 所 有 的 实例 上 的 。 在 这 种 情形 下 ， 如 果 有 许多 实例 ， 由 分 裂 所 节省 的 信息 量 将 远 超出 必须 
对 分 裂 点 进行 编码 的 惩罚 。 

在 5.9 节 中 曾 强 调 ， 应 用 MDL 原 理 时 ， 困 难 会 随 着 对 问题 细节 的 深入 而 出 现 。 在 相对 直接 
的 离散 情形 中 ， 虽 然 也 不 简单 ， 但 还 是 较 易 处 理 的 。 信 息 总 量 可 以 在 某 些 合理 的 假设 条 件 下 
获得 。 这 里 我 们 不 再 深入 讨论 ， 结 论 是 如 果 这 个 分 裂 所 带 来 的 信息 增益 超出 某 个 定 值 时 ， 在 


某 处 进行 分 裂 还 是 值得 的 、 这 个 定 值 是 由 实例 数量 N、 类 别 数 量 k:、 实 例 集 E 的 炉 、 每 个 子 区 间 . 


TAS A RE, 和 E; 的 焕 以 及 每 个 子 区 间 内 的 类 别 数量 Kk 和 所 决定 的 : 
> ea =D + log, (3* -+ +k,E, 
第 一 个 部 分 是 描述 分 裂 点 所 需 的 信息 ， 第 二 部 分 是 传输 哪些 类 别 分 别 对 应 与 前 面 和 后 面 的 子 
KERR- -AE R. 
当 应 用 在 温度 例子 上 时 、 这 个 标准 阻止 任何 分 裂 。 第 -- 次 分 裂 只 分 离 出 了 最 后 一 个 实例 ， 


增益 


正如 你 所 能 想象 的 ， 传 输 这些 类 别 时 几乎 没有 获得 什么 真正 的 信息 。 实 际 上 ，MDL 标 准 不 会 ， 


产生 任何 只 含 一 个 实例 的 区 间 。 离 散 温度 属性 的 失败 ， 取 消 了 温度 属性 在 最 终 的 决策 树 结构 


中 担当 任何 角色 ， 因 为 赋予 所 有 实例 的 离散 值 都 会 是 一 样 的。 在 这 种 情形 下 ， 这 是 完全 正确 : 
的 :对 天 气 数据 来 说 、 温 度 属性 在 好 的 决策 树 或 决策 规则 中 都 不 会 出 现 。 实 际 上 ， 离 散失 败 ， 


等 价 于 属性 选择 的 效果 。 
7.2.3 其 他 离散 方法 


采用 基于 焙 的 方法 并 应 用 MDL 停 止 标准 是 有 指导 离散 的 最 好 的 通用 技术 之 一 。 人 们 还 研 
究 了 许多 其 他 方法 。 例 如 .替代 原先 自 上 而 下 、 递 归 分 裂 区 间 直 至 满足 某 个 停止 标准 的 程序 ， 
你 也 可 以 由 下 往 上 、 先 将 每 个 实例 置 于 各 自 的 区 间 ， 然 后 考虑 是 否 合并 相 邻 区 间 。 可 以 应 用 
统计 标准 来 观察 哪 两 个 是 最 佳 合 并 区 间 ， 如 果 统 计 结果 超出 某 个 事先 设 定 的 置信 水 准 便 将 它 
们 合并 ， 重 复 此 过 程 直 到 不 再 有 能 通过 测试 的 潜在 合并 。X 测试 很 合适 ， 并 运用 于 此 。 更 为 
复杂 的 技术 用 于 自动 决定 合适 的 (置信 ) 水 准 来 替代 预先 设置 重要 性 益 值 。 

一 个 相当 不 同 的 方法 是 在 对 训练 实例 的 类 进行 预测 时 ， 累 计 离 散 所 带 来 的 误差 数量 ， 假 
设 每 个 区 间接 受 多 数 类 。 例 如 ， 前 面 所 述 的 单 规则 (IR) 方法 是 基于 误差 的 ， 它 更 注重 于 误 
差 而 非 粮 。 然 而 、 根 据 误 差 累计 所 获得 的 最 佳 离散 ， 往 往 使 用 尽 可 能 大 的 区 间 个 数 而 得 到 ， 
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必须 预先 限定 区 间 个 数 来 避免 这 种 退化 情形 。 你 也 许 会 问 ， 要 将 某 个 属性 离散 成 k 个 区 间 并 使 
其 误差 数目 达到 最 小 ， 什 么 才 是 最 好 的 方法 ? 

要 寻找 能 将 一 个 属性 分 裂 成 k 个 区 间 ， 并 使 与 k 成 指数 关系 的 误差 累计 达 最 小 化 的 最 佳 方 
案 的 穷 举 方法 是 不 现实 的 。 但 是 ， 基 于 动态 规划 (dynamic programming) 理念 有 一 些 非常 有 
效 的 方案 。 动 态 规划 不 仅 应 用 于 误差 累计 衡量 ， 而 且 应 用 于 任何 给 定 的 不 纯 函 数 ， 能 找到 将 NN 
个 实例 分 裂 成 个 区 间 ， 并 使 不 纯度 最 小 化 的 时 间 与 kN? 成 比例 。 这 给 出 了 一 种 方法 用 以 寻找 
最 佳 基 于 灶 的 离散 、 使 先前 讲述 的 递归 基于 灼 离散 方法 得 到 法 在 改善 (但 在 实践 中 这 种 改 
善 却 是 可 忽略 的 )。 基 于 误差 离散 的 消息 更 加 好 一 点 ， 因 为 有 一 种 方法 可 使 误差 累计 最 小 化 的 
时 间 与 N 成 线性 关系 。 


7.2.4 基于 焙 和 基于 误差 的 离散 

既然 优化 的 离散 运行 非常 快 ， 为 什么 不 采用 基于 误差 的 离散 ? 答案 是 因为 基于 误差 的 离 
散 有 一 个 严重 的 缺点 ， 它 不 让 相 邻 区 间 有 相同 的 类 标签 (如 图 7-3 中 的 前 两 个 )。 原 因 是 合并 
这 样 两 个 区 间 不 影响 误差 累计 ， 却 能 释放 一 个 区 间 可 用 于 (离散 ) 别处 来 降低 误差 黑 计 。 

为 什么 有 人 要 生成 两 个 相同 类 标的 相 邻 区 间 呢 ? 下 面 的 例子 是 最 好 的 解释 。 图 7-4 展 示 了 
一 个 简单 的 二 类 问题 的 实例 空间 ， 它 含有 两 个 数值 属性 ， 属 性 值 范围 从 0 到 1。 如 果 第 一 个 属 
性 (al) 值 小 于 0.3、 或 者 小 于 0.7 且 第 二 个 属性 (a2) 值 小 于 0.5， 那 么 实例 属于 一 类 (图 中 
圆 点 ) ; 否则 ， 实 例 便 是 属于 另 一 类 (图 中 三 角 )。 图 7-4 中 的 数据 便 是 根据 这 些 规则 人 工 生 
成 的 。 





图 7-4 含 两 个 类 别 、 两 个 属性 问题 的 类 分 布 
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现在 假设 要 将 两 个 属性 进行 属性 离散 ， 以 便 从 离散 了 的 属性 中 进行 分 类 学 习 。 最 好 的 离 
散 分 裂 就 是 将 al 分 裂 成 3 个 区 间 (0 到 0.3，0.3 到 0.7，0.7 到 1.0) ， 将 a2 分 裂 成 2 个 区 间 (0 到 0.5， 
0.5 到 1.0)。 给 定 这 些 名 词性 属性 ， 要 学 习 怎 样 用 简单 的 决策 树 或 规则 算法 分 类 就 很 容易 了 。 
分 裂 a2 没 有 问题 。 对 于 al 来 说 ， 第 一 个 和 最 后 一 个 区 间 具 有 相反 的 类 标签 (分 别 是 圆 点 和 三 
角 )。 第 二 个 类 标签 是 从 0.3 到 0.7 这 个 区 间 上 出 现 较 多 的 那个 类 别 (对 于 图 7-4 中 的 数据 来 说 实 
际 上 是 圆 点 )。 不 管 是 哪 种 类 ， 这 个 标签 肯定 会 与 一 个 相 邻 的 标签 相同 ， 无 论 中 间 区 域 的 类 概 
率 是 多 少 ， 这 点 都 是 成 立 的 。 因 此 ， 这 种 离散 是 任何 误差 累计 最 小 化 的 方法 都 不 会 得 到 的 ， 
因为 这 类 方法 不 允许 相 邻 区 间 产 生 同 样 的 标签 。 

重点 是 当 al 的 属性 值 越过 0.3 这 个 界线 时 ， 改 变 的 不 是 多 数 类 而 是 类 分 布 。 多 数 类 仍然 是 
圆 点 ， 但 类 分 布 发 生 了 显著 变化 ， 从 以 前 的 100% 到 刚 过 50% 。 当 越过 0.7 界 线 后 ， 类 分 布 再 
次 变化 ， 从 50% 降 低 到 0%。 即 使 多 数 类 不 变化 ， 基 于 炉 的 离散 方法 对 于 类 分 布 变化 也 敏感 。 
而 基于 误差 的 方法 却 不 敏感 。 


7.2.5 离散 属性 转换 成 数值 属性 

有 一 个 和 离散 相反 的 问题 。 有 些 学 习 算 法 特别 是 基于 实例 的 最 近邻 法 和 牵涉 到 回归 的 数 
值 预测 技术 只 处 理 数值 属性 。 怎 样 将 它们 扩展 应 用 于 名 词性 属性 呢 ? 

如 4.7 节 中 所 描述 的 基于 实例 的 学 习 可 以 通过 定义 两 个 名 词性 属性 值 之 间 的 “距离 ”把 离 
散 属 性 当 作 数值 属性 来 处 理 ， 相 同 值 距离 为 0， 不 同 值 距离 为 1， 不 管 实 际 数值 是 多 少 。 不 用 修 
改 距离 函数 ， 而 是 使 用 一 种 属性 转换 来 实现 ， 将 一 个 含有 Kk 个 属性 值 的 名 词性 属性 用 k 个 合成 二 
值 属 性 来 替代 ， 每 个 (二 值 属 性 ) 对 应 一 个 (名 词性 属性 ) 值 ， 指 示 这 个 属性 是 否 有 这 个 属性 
值 。 如 果 属 性 权 值 相同 ，( 这 些 属性 ) 在 距离 函数 上 的 影响 是 相同 的 。 距 高 对 于 属性 值 是 不 敏感 
的 ， 因 为 只 有 “相同 ”或 “不 同 ” 两 种 信息 被 编码 了 ， 而 不 是 与 各 种 可 能 的 属性 值 相关 联 的 差 
别 度 。 如 果 属 性 带 有 反映 它们 相对 重要 性 的 权 值 ， 便 能 获得 更 多 的 细微 差别 (信息 )。 

如 果 属 性 值 可 以 排序 ， 会 带 来 更 多 的 机 会 。 对 于 一 个 数值 预测 问题 ， 对 应 于 每 个 名 词性 
属性 值 的 平均 类 值 可 以 从 训练 实例 中 计算 得 到 ， 并 可 用 它们 来 定 出 一 个 序列 。 这 种 技术 是 为 
6.5 节 中 的 模型 树 而 引入 的 。( 对 于 分 类 问题 ， 很 难 找到 类 似 的 方法 对 属性 值 进行 排序 。 ) 很 明 
显 ， 一 个 排序 的 名 词性 属性 可 以 用 一 个 整数 来 代替 ， 这 不 仅 瞳 示 一 个 序列 ， 还 暗示 一 个 属性 
值 的 衡量 尺度 。 可 以 通过 为 -个 含 k 个 值 的 名 词性 属性 建立 E- 1 个 合成 二 值 属性 (7.2 节 所 描述 
的 方法 ) 来 避免 牵涉 衡量 尺度 。 这 种 编码 方法 仍然 表示 不 同属 性 值 之 间 的 排序 ， 相 邻 的 值 只 
会 有 一 个 二 值 属 性 不 同 ， 而 间 障 的 值 会 有 几 个 二 值 属性 不 相同 ， 但 这 时 属性 值 之 间 不 是 等 距 
离 的 。 


7.3 一 些 有 用 的 转换 


资源 丰富 的 数据 挖 拨 者 拥有 满载 挖 抉 技术 的 工具 箱 ， 辟 如 用 于 数据 转换 的 离散 技术 。 如 
同 在 2.4 节 中 所 强调 的 ， 数 据 挖 气 从 来 就 不 是 提取 一 个 数据 集 ， 将 学 习 算法 应 用 于 数据 上 那么 
简单 的 事情 。 每 个 问题 都 不 相同 。 你 必须 对 数据 进行 思考 ， 琢 磨 它 的 意义 ， 然 后 从 不 同 的 角 
度 来 检验 ， 具 有 独创 性 地 找到 一 个 合适 的 观点 。 用 不 同 的 方法 对 数据 进行 转换 可 以 助 你 拥有 
一 个 好 的 开端 。 

你 不 必 亲 自 去 实现 这 些 技术 来 武装 自己 的 工具 箱 。 用 于 数据 挖 据 的 精细 而 复杂 的 操作 环 
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境 ， 为 你 提供 了 广泛 的 有 用 工具 ， 如 本 书 第 二 部 分 所 介绍 的 就 是 其 中 的 一 种 。 你 不 必 详 细 了 
解 它们 是 怎么 实现 的 。 你 所 要 了 解 的 是 这 些 工 具 能 十 什么 ， 怎 样 来 使 用 它们 。 本 书 第 二 部 分 
列 出 并 简单 介绍 了 出 现在 Weka 数 据 挖 据 工 作 台 上 的 所 有 转换 。 

数据 经 常 要 求 对 一 系列 属性 进行 数学 转换 。 将 数学 函数 应 用 于 现 有 的 属性 上 定义 出 新 的 
属性 或 许 会 有 用 。 两 个 日 期 属性 相 减 可 能 产生 第 三 个 代表 年 龄 的 属性 ， 一 个 受 原始 属性 含义 
所 驱 的 语义 转换 的 例子 。 在 已 知 学 习 算法 的 一 些 特性 时 ， 也 建议 运用 其 他 一 些 转换 。 如 果 觉 
察 到 一 个 线性 关系 牵涉 到 两 个 属性 A 和 B ， 而 算法 只 能 进行 轴 平 行 (axis-parallel) 分 裂 (如 同 
大 多 数 的 决策 树 和 规则 学 习 器 )、 那 么 将 比例 A/B 定 义 成 一 个 新 的 属性 。 转 换 不 必 一 定 是 数学 
函数 ， 也 可 能 包含 -- 些 常识 ， 如 一 星期 所 含 天 数 、 公 休假 期 或 化 学 原子 数量 等 。 转 换 可 以 被 
表示 为 电子 数据 表 中 的 操作 或 用 任意 计算 机 程序 来 实现 的 功能 。 或 者 也 可 以 将 儿 个 名 词性 属 
性 的 属性 值 联合 在 一 起 减少 成 为 一 个 属性 ， 由 分 别 含 k, 个 值 和 ks 个 值 的 两 个 属性 形成 包含 k x 
太 :个 值 的 单一 属性 。 离 散 可 将 一 个 数值 属性 转换 为 名 词性 属性 ， 我 们 也 看 到 了 怎样 进行 逆向 
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吨 一 种 转换 是 在 数据 集 上 应 用 聚 类 程序 ， 然 后 定义 一 个 新 的 属性 ， 对 于 任何 实例 来 说 ， 
新 属性 的 值 便 是 实例 所 属 的 京 类 类 标 。 你 可 以 在 每 个 实例 上 应 用 概率 察 类 ， 增 加 它 对 于 每 个 
聚 类 的 从 属 概率 属性 ， 有 多 少 聚 类 就 添加 多 少 新 属性 。 

有 时 在 数据 上 添加 -- 些 干扰 数据 会 有 帮助 ， 可 用 来 检测 -~ 个 学 习 算 法 的 强壮 度 。 取 -个 
名 词性 属性 ， 改 变 它 的 属性 值 的 已 知 比例 。 通 过 将 关系 、 属 性 名 称 、 名 词性 属性 和 宁 符 申 属 
性 的 属性 值 重新 命名 使 数据 混乱 .因为 使 - 些 敏感 数据 匿名 化 经 常 是 有 必要 的 。 将 实例 的 次 
序 随机 化 或 通过 :二 次 采样 (resampling) 产生 数据 集 的 一 个 随机 样本 。 按 照 某 个 给 定 比 例 删除 
实例 ， 或 删除 名 过 性 属性 为 某 些 值 的 实例 ， 或 者 是 删除 数值 属性 值 高 于 或 低 于 某 个 疾 值 的 实 
例 ， 从 而 减 小 实例 集 。 或 者 在 实例 集 上 应 用 某 个 分 类 方法 ， 然 后 删除 被 错误 分 类 的 实例 ， 以 
此 去 除 某 些 例外 。 

不 同类 型 的 输入 要 求 有 它们 各 自 的 转换 。 如 果 能 输入 稀 朴 数据 文件 ( 见 2.4 节 )， 也 许 需要 
能 将 数据 集 转换 为 非 稀 玻 形式 ， 反 之 亦 然 。 文 本 输入 和 时 间 序 列 输入 要 求 有 它们 各 自 的 特殊 
转换 ， 将 在 下 面 的 小 节 中 详 述 。 先 来 看 看 将 数值 属性 转换 为 低 维 形式 的 两 种 普及 技术 ， 它 在 
数据 控 据 中 比较 有 用 。 


7.3.1 主 分 量 分 析 


对 于 一 个 含有 K 个 数值 型 属性 的 数据 集 ， 你 可 将 这 些 数据 想象 成 在 k 维 空间 上 密布 的 点 ， 

PRK LB. 大群 被 定格 的 飞 虫 、-- 张 纸 上 的 二 维 点 阵 图 。 属 性 象征 着 在 空间 上 的 

华 标 轴 。 但 所 用 的 轴 ( 即 华 标 系统 本 身 ) 是 任意 方向 的 。 你 可 以 在 纸 上 放 置 -- 个 水 平方 向 

和 … 个 冬 直 方向 的 轴 ， 然 后 利用 这 些 坐 标 轴 来 表示 点 阵 图 中 的 每 个 点 ， 也 可 以 任意 画 - 一 条 

直线 代表 X 轴 ， 再 用 一 条 与 它 正 交 的 直线 代表 Y 轴 。 要 记录 飞 虫 的 位 置 ， 可 以 用 传统 的 定 

位 系统 ， 一 条 南北 向 的 轴 、-- 条 东西 向 的 轴 以 及 一 条 上 下 方向 的 轴 。 采 用 其 他 坐标 系统 也 
同样 可 行 。 像 飞 虫 这 样 的 生物 不 懂得 东西 南北 ， 虽 然 由 于 地 心 引力 ， 它 们 也 许 能 感知 上 下 
方向 。 择 于 天 上 的 星星， 谁 能 说 出 什么 是 “正确 ”的 坐标 系 呢 ? 数 世纪 以 来 ， 我 们 的 祖先 

从 以 地 球 为 中 心 的 观点 转变 成 以 太阳 为 中 心 的 观点 再 到 纯粹 的 相对 论 观点 ， 每 次 观点 的 转 

Bos) 变 都 伴随 着 宗教 与 科学 之 间 关 系 的 剧变 ， 以 及 对 于 人 类 在 上 帝 所 创造 的 字 宙 中 所 处 角色 的 
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痛 若 的 重新 审视 。 

回 到 数据 集 ， 就 像 上 述 例子 所 示 的 ， 没 有 任何 因素 可 以 阻止 你 将 所 有 的 数据 点 转换 到 一 
个 不 同 的 坐标 系 中 去 。 但 与 上 述 例子 不 同 的 是 ， 在 数据 挖掘 中 经 常 存 在 一 个 首选 的 坐标 系 ， 
它 不 是 由 外 在 的 惯例 所 决定 、 而 是 由 数据 本 身 决 定 的 。 无 论 采 用 何 种 坐标 ， 数 据点 在 每 个 方 
向 上 都 存在 一 个 方差 ， 预示 了 在 这 个 方向 上 平均 值 周围 的 伸展 度 。 奇 怪 的 是 如 果 将 各 个 方向 
上 的 方差 相 加 ， 然 后 将 数据 点 转换 到 一 个 不 同 的 坐标 系统 中 去 并 做 同样 的 操作 ， 两 种 情况 下 
所 得 的 方差 总 和 是 相同 的 。 只 要 坐标 系统 是 正 交 的 ， 即 每 个 坐标 轴 与 其 他 坐标 轴 都 成 直角 ， 
这 种 关系 始终 是 成 立 的 。 

主 分 量 分 析 (principal components analysis) 法 的 思想 是 使 用 - -个 特殊 的 、 由 数据 点 决定 
的 坐标 系 、 将 第 一 个 坐标 轴 设 在 数据 点 方差 最 大 的 方向 上 ， 从 而 使 这 个 轴 向 上 的 方差 最 大 化 。 
第 二 个 坐标 轴 与 第 一 个 轴 正 交 。 在 二 维 空间 没有 其 他 选择 ， 它 的 方向 由 第 一 个 轴 所 决定 。 但 
在 二 维 空间 ， 它 可 以 是 在 与 第 一 个 轴 正 交 的 平面 上 的 任意 位 置 ， 在 更 高 维 的 空间 甚至 有 更 多 
的 选择 ， 虽 然 始终 限制 其 必须 与 第 一 个 轴 正 交 。 遵 循 这 个 限制 ， 选 择 沿 轴 向 的 方差 达到 最 大 
值 的 方向 作为 第 二 个 轴 向 。 如 此 继续 选择 每 个 轴 ， 使 该 轴 向 的 方差 在 所 剩 方差 中 占 的 分 额 是 
最 大 的 。 


怎样 来 实现 呢 ? 给 出 … 个 合适 的 计算 机 程序 并 不 难 实现 ; 给 出 合适 的 数学 工具 ， 也 不 难 
理解 。 从 技术 上 米 看 ， 了 解 下 面 术 语 的 读者 计算 数据 点 原始 坐标 的 协 方差 矩阵 (covariance ` 
matrix), ， 并 进行 对 角 线 化 (diagonalize ) ， 找 到 特征 向 量 (eigenvector)。 这 些 就 是 转换 后 的 ， 
空间 上 的 轴 ， 并 按照 特征 值 (eigenvalue) 进行 排序 ， 因 为 每 个 特征 值 提供 了 这 个 轴 向 上 的 


方差 。 

图 7-5 展 示 了 一个 含 10 个 数值 属性 ， 即 相应 的 数据 点 是 在 一 个 10 维 空间 上 的 数据 集 的 转换 
结果 。 想 象 一 下 原始 数据 点 密布 于 --- 个 10 维 的 空间 ， 这 是 我 们 画 不 出 来 的 ! 选择 方差 最 大 的 
方向 为 第 “个 轴 的 轴 向 ， 第 一 个 轴 向 选择 与 之 正 交 且 方 差 次 大 的 方向 ， 依 次 类 推 。 图 中 列表 
按照 被 选择 的 次 序 ， 依 次 列 出 了 沿 每 个 新 轴 向 上 的 方差 。 由 于 方差 的 总 和 是 一 个 常量 而 与 坐 
标 系 无 关 ， 因 此 用 方差 占 总 和 百分比 的 形式 列 出 。 我 们 称 轴 为 分 量 (component) ,每 个 分 量 
要 “担负 ” 它 在 方差 中 的 分 额 。 图 7-S$b 画 出 了 每 个 分 量 所 担负 的 方差 对 应 于 分 量 的 序号 。 可 
以 使 用 所 有 的 分 量 作为 新 属性 来 进行 数据 控 掘 ， 也 可 以 只 选择 前 面 几 个 ， 即 主 分 量 (principal 
component) ， 而 丢弃 其 余 的 分 量 。 在 这 个 例子 中 ，3 个 主 分 量 担负 了 数据 集 84% 的 方差 ; 7 个 
便 担 负 了 95% 以 上 。 

对 于 数值 型 的 数据 集 ， 在 进行 数据 控 掘 之 前 使 用 主 分 量 分 析 ， 作 为 一 种 数据 清理 及 属性 
生成 的 形式 是 很 常见 的 。 例 如 ， 你 也 许 想 要 替代 数值 属性 ， 用 主 分 量 轴 或 它们 的 一 个 子 集 来 
担负 某 个 给 定 比例 的 方差 ， 警 如 说 95%。 注意 属性 的 衡量 尺度 会 影响 主 分 量 分 析 的 结果 ， 通 
常 惯例 是 先 将 所 有 属性 进行 标准 化 ， 使 之 平均 值 为 0 且 方 差 单元 化 。 

另 一 种 可 能 性 是 将 主 分 量 分 析 法 递归 地 运用 于 决策 树 学 习 器 中 。 普 通 的 决策 树 学 习 器 在 
每 个 阶段 所 选择 的 分 裂 都 是 治平 行 于 某 个 轴 向 的 。 然 而 ， 假 设 先 进行 了 一 次 主 分 量 转换 ， 学 
习 器 选择 了 经 过 转换 了 的 空间 中 的 一 个 轴 。 这 等 同 于 铅 原 始 空间 中 的 某 条 斜 线 进行 分 裂 。 如 
果 每 次 分 裂 之 前 都 重新 进行 转换 ， 结 果 将 是 一 种 多 元 决策 树 ， 它 的 分 裂 方 向 与 轴 或 与 其 他 分 
裂 方 向 都 是 不 平行 的 。 
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a) 每 个 分 量 的 方差 
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分 量 序号 
b) 方差 图 
图 7-5 数据 集 的 主 分 量 转换 
7.3.2 随机 投影 


主 分 量 分 析 将 数据 线性 转换 到 低 维 空间 。 但 代价 昂贵 。 要 找 出 转换 (一 个 由 协 方差 算 阵 
的 特征 向 量 所 组 成 的 矩阵 ) 花费 的 时 间 将 是 维 数 的 立方 。 对 于 属性 数目 庞大 的 数据 集 不 可 行 。 
个 更 为 简便 的 方法 是 将 数据 随机 投影 到 一 个 维 数 预先 设 定好 的 子 空 间 。 要 找到 随机 投影 矩 
阵 是 很 容易 的 。 但 效果 是 否 好 呢 ? 

事实 上 ， 理 论 表明 随机 投影 能 相当 好 地 保存 距离 关系 。 这 意味 着 它们 可 以 和 AD 树 或 球 树 
- 同 使 用 ， 在 高 维 空间 进行 近似 最 近邻 楼 索 。 首 先 转换 数据 以 减少 属性 数目 ， 然 后 为 转换 了 
的 空间 建树 。 最 近邻 分 类 情形 下 ， 使 用 多 个 随机 和 矩阵 来 建 一 个 联合 分 类 器 能 使 结果 更 加 稳定 
而 且 更 少 依赖 于 随机 投影 的 选择 

为 建 标 准 分 类 器 对 数据 进行 预 处 理 时 ， 采 用 随机 投影 的 效果 不 如 经 主 分 量 分 析 仔细 选择 
的 效果 ， 这 并 不 出 乎 意外 。 但 是 ， 试 验 显示 这 些 差别 并 不 太 大 ， 而 且 随 着 维 数 的 升 高 ， 差 别 
至 减 小 趋势 。 当 然 ， 随 机 投影 计算 成 本 要 低 得 多 。 
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7.3.3 从 文本 到 属性 向 量 

在 2.4 节 中 曾 介 绍 了 包含 文本 的 字符 串 属 性 并 指出 字符 串 属性 值 经 常 是 一 个 完整 的 文件 。 
字符 串 属 性 从 本 质 来 看 是 未 指明 属性 值 数目 的 名 词性 属性 。 如 果 只 是 简单 地 把 它们 当 作 名 词 
性 属性 来 处 理 的 话 ， 模 型 可 依据 两 个 字符 串 属性 值 是 否 相同 来 建立 。 但 这 种 方式 没有 捕捉 到 
任何 字符 串 内 在 的 结构 ， 或 者 显示 它 所 代表 文本 的 任何 有 趣 方 面 。 

尔 可 以 想象 将 字符 串 属 性 中 的 文本 分 解 为 - -个 个 段落 、 句 子 或 词组 。 -- 般 地 ， 单 词 是 最 
有 用 的 单元 。 字 符 串 属性 中 的 文本 通常 是 一 连 串 的 单词 ， 文 本 所 包含 的 单词 通常 可 作为 它 最 
好 的 代表 。 例 如 ， 可 将 字符 串 属 性 转换 为 一 系列 的 数值 属性 ， 每 个 单词 用 一 个 数值 属性 ， 代 
表 这 个 单词 出 现 的 频率 。 这 一 系列 单词 ， 即 一 系列 新 属性 是 由 数据 集 决定 的 ， 它 的 数量 是 相 
当 大 的 。 如 果 存 在 几 个 需要 分 别处 理 的 字符 串 属 性 ， 新 属性 的 名 称 必 须 区 别 开 来 ， 或 许可 采 
FA aE SCY HT BR 

转变 为 单词 (用 tokenization) 并 不 是 表面 看 来 那么 简单 的 操作 。 记 号 可 以 由 连续 的 字母 
排列 形成 、 天 弃 韭 字母 字符 。 如 果 是 数字 ， 数 字 排 列 也 要 保留 。 数 字 可 能 牵涉 到 + 号 或 -号 、 
小 数 点 以 及 知 次 方 ， 换 句 话 说 ， 就 是 它们 要 根据 某 种 定义 的 数字 语法 排列 。-… 个 字母 数字 排 
列 也 许 要 被 当 作 -个 单独 的 记号 。 也 许 空格 字符 可 作为 记号 的 分 隔 符 ， 也 许 white space ( 即 
包括 tab 键 和 换行 符 ) 是 分 隔 符 ， 也 许 标点 符号 也 是 分 隔 符 。 句 点 符 很 难处 理 : 有 时 它们 应 作 
为 单词 的 一部分 来 考虑 〈 与 姓名 首 字母 在 一 起 、 与 称呼 在 - -起 、 缩 写 以 及 数字 ) ， 但 有 时 又 不 
能 那样 〈 如 果 它 们 是 句子 的 分 隔 符 )。 连 字号 及 省 略 号 也 有 类 似 问 题 。 

所 有 单词 在 被 加 入 词汇 表 之 前 、 也 许 都 要 先 转 变 为 小 写 。 在 预先 设 定 的 功能 词 或 停止 词 
(stopwords)， 如 the 、and 、but 的 清单 上 的 词 可 以 忽略 。 注 意 停 止 词 清单 是 取决 于 语言 的 。 
事实 上 ， 大 与 习惯 (德语 大 写 的 都 是 名 词 )、 数 字 语 法 (欧洲 使 用 逗号 代表 小 数 点 )、 标 点 符 
号 习惯 〈 西 班 牙 语 疑问 句 在 句 首 加 问号 )、 当 然 还 有 字符 集 本 身 都 是 取决 于 语言 的 。 总 之 ， 文 
本 是 很 复杂 的 。 

低频 率 词 譬如 只 用 过 “次 的 字句 (hapax legomen?) 经 常 被 丢弃 。 有 有 时 在 除去 停止 词 之 
后 ， 保留 频 率 最 高 的 k 个 单词 ， 或 者 是 为 每 个 类 别 保留 频率 最 高 的 k 个 单词 ， 是 有 益处 的 。 

有 个 问题 伴随 着 所 有 这 些 tokenization 选项 ， 即 每 个 单词 属性 的 属性 值 应 是 什么 ?属性 值 
可 以 是 单词 累计 数 ， 这 个 单词 在 字符 串 中 出 现 的 次 数 . 或 者 只 是 简单 表明 出 现 或 未 出 现 。 可 
以 对 单词 频率 进行 正常 化 使 每 个 文件 的 属性 向 量具 有 相等 的 欧 几 里 得 长 度 。 另 -种 方法 是 ， 
将 文件 中 的 单词 所 出 现 的 频率 f; ,按照 各 种 不 同 的 标准 方式 进行 转换 。 一 种 标准 的 对 数 词 频率 
衡量 便 是 log (1+ fi,)) 。 在 信息 检索 中 广泛 应 用 的 衡量 方法 是 TF x IDF， 即 “ 词 频率 乘 以 文件 
频率 倒数 (term frequency times inverse document frequency)”. XE, 词 频率 被 - -个 因数 调整 ， 
这 个 因数 取决 于 这 个 词 被 其 他 文件 运用 到 的 普及 度 。TF x IDF 尺 度 的 标准 定义 如 下 

文件 数量 
金 有 词 ;的 文件 数量 


上 要 想法 是 文件 的 特性 基本 上 是 由 其 中 经 常 出 现 的 单词 而 定 ， 在 公式 中 占据 第 一 个 因子 ; BR 
去 那些 在 每 个 文件 或 几 平 每 个 文件 中 都 用 到 的 、 对 于 鉴别 毫 无 用 处 的 单词 ， 这 占据 了 公式 的 





fi; log 


O Ahapax legomena 是 指 在 全 文中 只 出 现 过 次 的 单词 。 
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第 二 个 因子 。TF x IDF 不 仅仅 特 指 这 个 公式 ， 而 且 泛 指 这 一 种 类 的 衡量 方法 。 例 如 ， 频 率 因 
Ff, 也 可 以 用 对 数 词 频率 log +f) KRE. 


7.3.4 ”时间 序列 

在 时 间 序 列 数 据 中 ， 每 个 实例 代表 不 同 的 时 间 间 阶 ， 属 性 给 出 了 与 该 时 间 间 隙 所 对 应 的 值 ， 
如 气象 预报 或 股市 行情 预测 。 有 时 需要 能 将 当前 实例 的 一 个 属性 值 用 过 去 的 或 将 来 的 实例 所 对 
应 的 属性 值 来 赫 换 。 更 常用 的 是 用 当前 实例 与 过 去 实例 属性 值 的 差 值 来 替换 当前 的 属性 值 。 例 
如 ， 当 前 实例 与 前 一 个 实例 属性 值 的 差 值 ( 差 值 常 被 称 为 Delta) 通常 比 属性 值 本 身 含 有 更 多 信 
Bit. 第 一 个 实例 由 于 时 间 位 移 值 未 知 ， 可 以 删除 或 用 残缺 值 来 代替 。 差 值 从 本 质 上 来 说 是 以 
由 时 间 间 隙 大 小 所 决定 的 某 个 常量 为 量度 的 第 一 次 求 导 ， 连 续 的 Delta 转 换 即 为 更 高 次 的 求 导 。 

在 一 些 时 间 序 列 中 、 实 例 不 代表 定期 的 样本 ， 而 每 个 实例 的 时 间 是 由 时 间 惟 (timestamp ) 
属性 给 出 的 。 不 同 的 时 间 发 之 间 的 差别 在 于 实例 的 时 间 问 阶 大 小 不 同 ， 如 果 要 取 其 他 属性 的 
连续 差 值 ， 必 须 除 以 间隙 大 小 以 使 求 导 正常 化 。 另 一 种 情形 是 每 个 属性 可 以 代表 不 同 的 时 间 ， 
而 非 每 个 实例 代表 不 同时 间 ， 因 此 时 间 序 列 是 从 一 个 属性 到 下 一 个 属性 ， 而 非 从 一 个 实例 到 
下 一 外 实例 。 那 么 ， 如 果 需 要 差 值 ， 必 须 取 每 个 实例 的 -一 个 属性 和 下 一 个 属性 之 间 的 差 值 。 


7.4 自动 数据 清理 
一 个 令 实际 数据 挖掘 工作 头疼 的 问题 便 是 数据 的 质量 低劣 。 在 大 型 数据 库 中 错误 更 是 党 
见 。 属 性 值 、 类 值 经 常 是 不 可 靠 和 错误 的 。-- 种 解决 此 问题 的 方法 是 艰辛 地 检查 数据 ， 然 而 


数据 挖 据 技 术 本 身 也 能 对 此 问题 的 解决 有 所 帮助 。 
7.4.1 改进 决策 树 


一 个 令 人 惊讶 的 事实 是 利用 训练 数据 进行 决策 树 的 归纳 ， 可 以 简单 化 且 不 损失 正确 率 ， 
通过 丢弃 被 错误 分 类 的 训练 实例 ， 重 新 学 习 ， 然 后 重复 直到 没有 错误 分 类 的 实例 为 止 。 在 一 
些 标准 数据 集 上 的 试验 显明 ， 这 几乎 不 影响 标准 的 决策 树 归纳 法 C4.5 的 分 类 正确 率 。 有 时 性 
能 略 有 提高 ， 有 时 略微 变 差 。 差 别 不 显著 ,即使 有 显著 差别 ， 两 者 都 有 优势 可 能 。 这 种 技术 
影响 的 是 决策 树 的 大 小 。 虽 然 性 能 表现 大 致 相当 ， 最 终 的 决策 树 比 原来 的 总 是 小 得 多 。 

这 是 什么 原因 呢 ” 当 决策 树 归纳 要 修剪 掉 一 个 子 树 时 ， 它 应 用 统计 测试 通过 数据 来 判定 
这 个 子 树 是 全 “合理 *。 修 前 决定 相信 在 训练 实例 分 类 的 正确 性 上 做 出 少量 牺牲， 将 提高 在 测 
试 集 上 的 性 能 表现 。 些 未 修剪 树 能 正确 分 类 的 训练 实例 ， 现 在 用 经 过 修剪 的 树 将 会 被 错误 
分 类 ， 实 际 上 ， 决 策 树 将 忽略 这 些 训 练 实例 。 

然而 ， 这 个 决策 只 是 应 用 于 局 部 ， 只 在 被 修剪 的 子 树 中 。 它 的 影响 没有 被 允许 往 树 的 上 
层 渗 透 ， 那 样 也 许 会 造成 选择 出 不 同 的 分 支 属 性 。 从 训练 集中 去 除 被 错误 分 类 的 实例 并 重新 
学 习 决 策 树 ， 使 修剪 决策 做 出 合理 的 结论 。 如 果 修 剪 策 略 较 好 ， 不 会 破坏 性 能 ， 蕉 至 由 于 人 允 
许 选 择 更 好 的 属性 还 能 提高 性 能 。 

毫 无 妖 问 ， 进 行 专家 咨询 效果 更 好 。 对 错误 分 类 的 训练 实例 进行 验证 ， 发 现实 例 是 错误 
的 可 将 其 删除 ， 或 者 还 可 使 用 ， 则 进行 修正 。 

注意 我 们 假设 实例 没有 出 现任 何 系统 上 的 错误 分 类 。 如 果实 例 在 训练 集 和 测试 集 上 都 被 
系统 性 地 破坏 ， 例 如 ，- -个 类 值 可 能 被 另 一 个 类 值 替 换 了 ， 只 能 期 望 在 错误 的 训练 集 上 训练 
会 在 【同样 也 是 错误 的 ) 测试 集 上 产生 较 好 的 性 能 。 
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有 趣 的 是 人 们 发 现 当 往 数据 中 人 为 地 添加 属性 干扰 时 (不 是 类 干扰 )， 如 果 在 训练 集中 也 
添加 了 同样 的 属性 干扰 ， 在 测试 集 上 的 性 能 会 提高 。 换 句 话说 便 是 当 存在 属性 干扰 问题 时 ， 
如 果 恬 能 而 试 将 要 在 “不 清洗 ”的 数据 上 进行 ， 那 么 用 一 个 “清洗 ”的 训练 集 来 训练 并 不 好 。 
有 一 种 学 习 方 法 能 够 学 习 对 属性 干扰 进行 稍 许 补偿 。 从 本 质 上 来 说 ， 它 能 学 习 哪 些 属性 不 可 
给， 如 果 都 不 可 靠 ， 怎样 最 好 地 利用 它们 产生 一 个 更 可 靠 的 结果 。 将 训练 集 上 的 属性 于 扰 去 
除 便 失 去 了 怎样 最 好 地 抗 干扰 的 学 习 机 会 。 但 是 对 于 类 干扰 (而 非 属性 干扰 )， 如 果 可 能 ， 最 
好 还 是 使 用 无 干扰 的 实例 进行 训练 。 - 


7.4.2 稳健 回 为 


历年 来 人 们 已 经 知道 了 干扰 数据 在 线性 回归 中 所 造成 的 问题 。 统 计 学 家 们 经 常 是 靠 检 查 数据 
中 的 孤立 点 《outlier) 并 人 工 将 它们 去 除 。 在 线性 回归 情形 中 ， 孤 立 点 可 从 视觉 上 辨别 出 来 ， 虽 然 
不 是 完全 清楚 这 个 孤立 点 是 一 个 错误 ,或 者 只 是 一 个 不 寻常 、 却 是 正确 的 值 。 孤 立 点 大 大 影响 了 最 
小 一 乘 回 归 (least-squares regression ) ， 因 为 二 乘 方 的 距离 衡量 加 强 了 远离 回归 线 的 数据 点 的 影响 。 

处 理 孤立 点 的 统计 方法 称 为 稳健 型 (robust)。 使 回归 更 为 稳健 的 一 种 方法 是 采用 绝对 值 
距离 衡量 来 代替 通常 使 用 的 二 乘 方 距离 衡量 。 这 削弱 了 孤立 点 的 影响 。 另 一 种 可 能 的 方法 是 
试图 自动 识别 孤立 点 ， 把 它 驱 逐 出 考虑 范围 。 例 如 ， 可 以 形成 一 条 回归 线 ， 然 后 驱逐 离 回归 
线 较 远 的 10% 的 数据 点 。 第 三 个 方法 是 使 距离 回归 线 二 乘 中 值 (median) (而 非 平均 值 ) 最 小 
化 。 结 论 是 这 种 估计 器 非常 稳健 ， 真 正 是 既 在 X 轴 向 对 孤立 点 进行 处 理 ， 又 在 孤立 点 常规 考 
虑 方向 Y 轴 向 进行 处 理 。 

用 于 描述 稳健 回归 的 常用 数据 集 是 从 1950 年 到 1973 年 比利时 的 国际 长 途 电话 图 ， 如 图 7-6 
所 示 。 这 个 数据 集 来 源 于 比利时 经 济 部 发 布 的 比利时 统计 调查 。 这 个 图 似乎 显示 历年 来 ( 国 
际 长 途 电话 数量 ) 呈 上 升 趋势 ， 但 从 1964 年 到 1969 年 这 段 时 间 数 据点 反常 。 实 际 上 是 这 段 时 
间 的 数据 被 错误 地 记录 为 电话 总 分 钟 数 。1963 年 和 1970 年 也 受到 部 分 影响 。 这 个 错误 造成 孤 
立 点 在 Y 轴 方向 上 的 巨大 偏差 。 
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图 7-6 比利时 国际 长 途 电话 数量 ， 1950~1973 年 


由 于 这 些 反常 数据 ， 最 小 二 乘 回 归 线 受到 严重 影响 ， 这 并 不 奇怪 。 然 而 ， 最 小 中 值 二 乘 
回归 线 却 明显 不 受 干扰 。 对 于 这 条 线 有 … 个 简单 而 自然 的 说 明 。 从 几何 学 角度 看 ， 它 相当 于 
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寻找 一 条 攻 盖 半数 观察 点 的 最 宏 带 ， 带 的 厚度 是 从 垂直 方向 衡量 的 。 这 条 窄带 在 图 7-6 中 显示 
为 灰色 ， 需 要 仔细 看 。 最 小 中 值 二 乘 回归 线 则 位 于 这 条 罕 带 的 中 央 。 这 个 术语 比 常规 的 最 小 
一 乘 回 归 定 义 更 容易 解释 、 显 示 。 不 幸 的 是 ， 基 十 中 值 的 回归 技术 有 个 严重 缺陷 : 它们 造成 
很 高 的 计算 成 本 ， 面 对 实际 问题 经 常 是 不 可 行 的 。 
7.4.3 侦察 异 情 

任何 自动 侦察 明显 错误 数据 的 一 个 严重 问题 是 把 有 价值 的 东西 和 不 需要 的 东西 -- 起 扔 掉 。 
由 于 缺乏 咨询 专家 ， 没 有 办 法 知道 某 个 实例 真 的 是 一 个 错误 或 者 只 是 所 应 用 的 模型 不 适合 它 。 
在 统计 回归 中 ， 使 之 可 视 化 能 有 所 帮助 。 如 果 要 拟 合 的 是 一 条 错误 的 曲线 ， 即 使 不 是 专家 通 
常 也 能 明显 看 出 ， 比 如 要 使 一条 直线 拟 合 位 于 抛物 线 上 的 数据 。 图 7-6 的 孤立 点 当然 是 非常 明 
显 ， 但 大 多 数 的 问题 并 不 那么 明显 ,“ 模 型 种 类 ” 比 回 归 线 要 敏感 。 虽 然 对 于 大 多 数 的 标准 数 
据 集 来 说 ， 丢 弃 不 符合 决策 树 的 实例 能 获得 较 好 的 结果 ， 但 在 处 理 某 个 新 数据 集 时 ， 这 不 … 
定 是 很 合适 的 。 也 许 新 数据 集 只 是 不 适合 用 决策 树 模 型 。 

一 种 人 们 已 经 尝试 的 方法 便 是 使 用 几 种 不 同 的 学 习 方案 ， 如 用 一 个 决策 树 、 一 个 最 近邻 
学 习 器 和 一 个 线性 判别 函数 (linear discriminant function) 来 过 滤 数 据 。 保 守 的 策略 是 用 这 二 
种 方法 分 类 都 失败 时 方 可 判定 一 个 实例 是 错误 的 并 将 其 从 数据 中 去 除 。 有 时 用 这 种 方法 过 滤 
数据 ， 然 后 使 用 经 过 滤 的 数据 作为 最 终 学 习 方 案 的 输入 ， 这 与 简单 地 使 这 三 个 学 习 方案 ， 然 
后 进行 投票 产生 最 终结 果 相 比较 ， 能 获得 更 好 的 性 能 。 三 种 学 习 方 法 在 经 过 滤 的 数据 上 进行 
训练 ， 然 后 投票 、 这 样 能 产生 更 好 的 效果 。 然 而 ， 投 票 技术 存在 :个 危险 ， 某 些 学 习 算法 比 
较 适 合 某 种 类 型 的 数据 ， 因 此 最 适合 的 方法 也 许 能 决定 投票 结果 ! 我 们 将 在 下 一 届 考察 一 种 
更 为 精细 的 方法 来 组 合 不 同 的 分 类 器 的 输出 结果 ， 称 为 堆栈 法 。 如 平时 一 样 ， 了 解数 据 ， 并 
用 不 同 的 方法 来 考察 数据 。 

过 滤 方 法 的 一 个 可 能 危险 是 它们 可 能 会 牺牲 某 个 类 别 (或 一 组 类 别 ) 的 实例 来 提高 剩余 
类 别 的 正确 性 。 没 有 什么 通用 的 方法 来 防止 这 -一 点 ， 实 践 发 现 这 是 个 常见 问题 。 

最 后 、 值 得 再 次 提醒 注意 的 是 首先 要 尽力 得 到 合适 数据 ， 自 动 过 滤 只 是 -种 作用 极其 有 限 
的 末代 。 如 果 在 实践 中 太 耗 时 间 和 成 本 ， 可 以 用 人 工 检 查 那 些 由 过 滤器 鉴别 出 来 的 可 疑 实例 。 


7.5 组 合 多 种 模型 


明智 的 人 们 在 做 出 某 个 关键 决策 时 ， 通 常 是 要 考虑 一 些 专家 们 的 意见 而 不 是 只 依赖 于 自 
己 的 判断 或 依赖 于 某 个 孤立 的 、 被 信任 的 顾问 。 例 如 ， 在 选择 “个 重要 的 新 政策 方向 之 前 ， 
-个 好 的 独裁 者 会 广泛 地 征询 意见 ， 盲 日 地 听从 一 个 专家 的 意见 是 不 明智 的 。 在 民主 的 条 件 
下 ， 对 不 同 的 观点 进行 讨论 也 许可 以 达成 … 致 意见 ， 如 果 不 能 还 可 以 进行 投票 。 不 管 采用 哪 
种 方法 ， 不 同 专家 意见 被 组 合 在 -起 。 

在 数据 挖 据 中 ， 由 机 器 学 习 产 生出 来 的 一 个 模型 可 以 被 看 作 是 一 个 专家 。 用 专家 这 个 词 
也 许 过 于 强化 了 ! 这 取决 于 训练 数据 的 数量 和 质 归 以 及 学 习 算 法 是 否 适合 于 手头 的 问题 ， 这 
个 专家 也 许 很 令 人 遗憾 、 很 无 知 ， 但 不 管 怎 样 . 我们 还 是 先 用 这 个 术语 。 很 明显 ， 能 使 所 做 
出 的 决策 更 为 可 靠 的 方法 便 是 将 不 同 的 输出 模型 组 合 起 来 。 一 些 机 器 学 习 技术 是 通过 学 习 合 
成 模型 将 它们 组 合 应 用 来 实现 ， 其 中 最 主要 的 方法 有 装 袋 、 提升 (boosting) 和 堆栈 .多数 情 
形 下 ， 与 单个 模型 相 比 较 ， 它 们 都 能 使 预测 性 能 有 所 提高 ， 并 且 是 可 用 于 数值 预测 以 及 分 类 
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预测 的 通用 技术 。 

装 袋 、 提 升 和 堆栈 是 过 去 十 年 发 展 起 来 的 ， 它 们 的 性 能 表现 常常 出 人 意料 的 好 。 机 器 学 
习 研 究 者 曾 努 力 分 析 其 中 的 原因 。 在 这 个 努力 过 程 中 ， 又 有 新 方法 出 现 ， 有 时 能 带 来 更 好 的 
SR. 例如， 人 类 的 委员 会 (WE) 很 少 能 从 干扰 中 获 益 ， 与 此 相反 ， 添 加 随机 的 分 类 器 变 
体重 新 组 合 后 的 装 袋 法 却 能 获得 性 能 的 提高 。 更 进一步 的 研究 分 析 揭示 出 提升 法 ， 也 许 是 这 
三 者 中 最 好 的 方法 ， 是 与 统计 技术 的 迭 加 模型 非常 相关 的 ， 对 这 个 方法 的 认识 也 使 程序 得 到 
了 改善 。 

这 些 组 合 模型 都 难以 分 析 这 个 兹 端 ， 它们 可 以 由 许多 其 至 是 儿 百 个 单个 模型 组 成 ,虽然 
性 能 表现 不 错 ， 但 这 些 决策 的 改善 归功 于 哪些 因素 并 不 易 了 解 到 。 近 几 年 发 展 出 一 些 方法 将 
委员 会 的 益处 和 易 理 解 的 模型 融和 在 一 起 。 有 些 产 生 标准 的 决策 树 模型 ， 另 一 些 产 生 能 提供 
可 选 路 径 的 决策 树 新 变 体 。 

作为 结束 ， 我 们 引入 另 一 种 技术 ， 使 用 误差 纠正 输出 编码 组 合 模型 的 技术 。 与 其 他 三 种 
技术 相 比较 ， 这 个 方法 更 加 专业 化 ， 只 适用 于 分 类 问题 ， 并 且 是 含 三 个 以 上 类 别 的 问题 。 


7.5.1 装 绕 

组 合 不 同 模型 的 决策 意味 着 由 不 同 的 输出 结果 合并 出 一 个 预测 。 对 于 分 类 问题 ， 最 简单 
的 方法 就 是 进行 投票 (也 许 是 带 有 权 值 的 投票 ) ; 对 于 数值 预测 问题 ， 就 是 计算 平均 值 (也 
许 是 带 有 权 值 的 平均 值 )。 装 袋 法 和 提升 法 都 采纳 这 种 方式 ， 但 它们 用 不 同方 法 得 到 各 自 的 模 
型 。 在 装 袋 法 中 模型 都 有 相同 的 权 值 ， 而 在 提升 法 中 ， 要 给 较 成 功 的 模型 加 权 ， 就 像 执 行 主 
管 对 于 不 同 专 家 的 建议 依据 它们 的 经 验 程度 给 予 排 位 值 一 样 。 

为 了 介绍 装 代 法, 假设 从 问题 领域 中 随机 选择 几 个 相同 大 小 的 训练 数据 集 。 想 象 使 用 某 种 
特定 的 机 器 学 习 技术 来 为 每 个 数据 集 建 决策 树 。 你 也 许 期 望 这 些 树 在 实践 中 是 一 样 的 ， 对 于 
每 个 新 的 实例 会 做 出 同样 的 预测 。 令 人 惊讶 的 是 ， 这 个 设想 是 相当 错误 的 ， 特 别 是 当 训练 数 
据 集 相当 小 时 。 这 是 个 令 人 烦 扰 的 事实 ， 在 整个 计划 上 投下 了 阴影 ! 原因 是 决策 树 归 纳 法 
(至 少 ,第 4 章 中 所 描述 的 标准 的 从 上 而 下 的 方法 ) 是 一 个 不 稳定 的 过 程 ， 训 练 数 据 的 稍 许 变 
化 易 导 致 在 某 个 节点 处 不 同 的 属性 被 选择 ， 使 这 个 节点 下 部 的 分 支 结构 出 现 明显 的 差异 。 这 
意味 着 对 杆 -一些 测试 实例 ， 部 分 决策 树 能 产生 正确 的 预测 ， 部 分 却 不 能 。 

回 到 前 面 的 专家 比喻 ， 将 每 个 专家 想象 为 单个 的 决策 树 。 我 们 可 以 通过 让 它们 对 每 个 测 
试 实例 投票 来 组 合 这 些 树 。 如 果 -- 个 类 收 到 了 比 其 他 类 更 多 的 投票 ， 它 就 被 当 作 是 正确 的 类 
别 。 一 般 地 ， 投 票数 越 多 越 好 ， 考 虑 越 多 的 投票 ， 由 投票 所 决定 的 预测 便 越 是 可 靠 。 如 果 有 
新 的 训练 数据 被 发 现 ， 用 它们 建树 并 让 预测 结果 参与 投票 ， 决 策 结 果 很 少 会 变 差 。 特 别 是 组 
合 分 类 器 的 正确 率 很 少 比 由 单个 数据 集 建立 的 决策 树 所 表现 的 正确 率 差 。( 然而 改善 并 不 是 确 
保 的 ， 从 理论 上 可 以 看 到 ， 组 合 决策 变 得 更 差 也 是 有 可 能 存在 的 情形 。) 

组 合 多 种 假设 的 效果 可 以 用 一 种 称 为 偏差 -方差 分 解 (bias-variance decomposition) 的 理 
论 来 考察 。 假 设 我 们 有 无 数 个 相同 大 小 的 独立 训练 集 数 据 ， 用 它们 来 生成 无 数 个 分 类 器 。 用 
所 有 的 分 类 器 对 一 个 测试 实例 进行 处 理 ， 由 多 数 投票 来 决定 答案 。 在 这 个 理想 状况 下 ， 还 是 
会 出 现 错误 因为 没有 一 种 学 习 方案 是 完美 的 ， 误 差 率 是 由 机 器 学 习 方 法 与 手头 问题 的 适 配 程 
度 所 决定 的 ， 而 且 总 是 存在 干扰 数据 的 影响 ， 这 也 不 可 能 学 习 到 。 假 设 预期 的 误差 率 是 用 组 
合 分 类 器 在 无 数 个 独立 测试 实例 上 的 平均 误差 评估 出 来 的 。 某 个 具体 学 习 算法 的 误差 率 称 为 
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学 习 算 法 对 于 这 个 学 习 问 题 的 偏差 ， 是 学 习 方 法 与 问题 适 配 程度 的 一 种 衡量 。 这 个 技术 定义 
是 对 1.5 节 中 所 介绍 的 偏差 这 个 模糊 的 术语 进行 量化 的 一 种 方法 ， 它 衡量 了 一 种 学 习 算法 的 
“永久 性 ”误差 ， 这 个 误差 即使 考虑 无 数 个 训练 集 也 是 无 法 消除 的 。 当 然 在 实践 运用 中 不 可 能 
精确 计算 ， 只 能 大 致 估算 。 

在 实践 中 ， 学 习 模 型 的 第 二 个 误差 来 源 是 所 使 用 的 具体 的 训练 集 ， 它 是 有 限 的 ， 因 此 不 
能 完全 代表 真实 的 实例 集 。 这 个 误差 部 分 的 期 望 值 来 源 于 所 有 给 定 大 小 的 可 能 训练 集 以 及 所 
有 可 能 测试 集 ， 称 为 学 习 方 法 对 于 这 个 问题 的 方差 。 一 个 分 类 器 的 总 期 望 误差 是 由 偏差 和 方 
差 这 两 部 分 之 和 所 构成 : 这 便 是 偏差 -方差 分 解 (bias-variance decomposition) S。 组 合 多 种 
分 类 器 能 通过 减 小 方差 项 从 而 减 小 期 望 误差 值 。 越 多 的 分 类 器 参与 进来 ， 方 差 减 小 量 也 越 大 。 

当 要 将 这 种 投票 法 运用 于 实践 中 时 ， 困 难 出 现 了 : 通常 只 有 一 个 训练 数据 集 ， 要 获得 更 
多 的 数据 不 是 不 可 能 就 是 代价 太 大 了 。 

装 袋 法 试图 使 用 一 个 给 定 的 训练 集 模拟 上 述 过 程 ， 来 缓解 学 习 方 法 的 不 稳定 性 。 删 除 部 分 
实例 并 复制 其 他 的 实例 来 改变 原始 训练 数据 ， 而 不 是 每 次 采样 一 个 新 的 、 独 立 的 训练 数据 集 。 
从 原始 数据 集中 随机 采样 实例 ， 产 生出 - -个 新 的 同样 大 小 的 数据 集 ， 这 个 采样 程序 不 可 避免 地 
出 现 一 些 重 复 实 例 ， 删 除 另 一 些 实 例 。 如 果 觉 得 这 个 想法 似曾相识 ， 那 是 因为 在 第 $ 章 描述 自 
引导 方法 用 于 估计 一 个 学 习 方 法 的 推广 误差 时 (5.445) 曾经 介绍 过 。 事 实 上 ， 术 语 装 袋 代表 
自 引 导 整 合 (bootstrap aggregating )。 装 袋 法 将 学 习 方案 ， 例 如 决策 树 ， 应 用 于 每 一 个 人 工 生 
成 的 数据 集 上 、 从 中 形成 分 类 器 并 对 预测 类 进行 投票 。 图 7-7 对 这 个 算法 进行 了 概述 。 

装 袋 和 先前 所 述 理想 化 的 程序 之 间 的 差别 在 于 训练 数据 集 形 成 的 方法 不 同 。 代 不 从 领域 
中 获得 独立 的 数据 集 ， 装 袋 只 是 对 原始 数据 集 进行 重新 取样 。 重 新 取样 的 数据 集 当 然 是 各 不 
相同 ， 但 肯定 不 是 独立 的 ， 因 为 它们 都 是 基于 一 个 数据 集 的 。 然 而 ， 结 果 是 装 袋 所 产生 的 组 
合 模型 的 性 能 经 常 比 在 原始 训练 数据 集 上 产生 的 单个 模型 有 明显 的 改善 ， 而 且 没 有 明显 变 差 
的 情形 出 现 。 





模型 生成 

令 n 为 训练 数据 的 实例 数量 

对 十 ! 次 循环 中 的 每 -次 
从 训练 数据 中 采样 n 个 实例 
将 学 引 算法 应 用 于 所 采样 本 
保存 结果 模型 

分 类 

对 于 (个 模型 中 的 每 -个 

| 使 用 模型 对 实例 进行 类 预测 








返回 被 预测 次 数 最 多 的 类 





图 7-7 ERAI 
装 钱 法 也 可 用 于 进行 数值 预测 的 学 习 方法 。 例 如 ， 模 型 树 。 差 别 只 是 将 各 个 预测 (都 是 
实数 ) 进行 平均 计算 ， 来 代替 对 结果 进行 投票 。 偏 差 -方差 分 解 也 适用 于 数值 预测 ， 分 解 对 于 
新 数据 所 做 预测 的 均 方 误差 的 期 望 值 。 偏 差 定义 为 对 所 有 模型 进行 平均 时 的 期 望 均 方 误差 ， 


© 这 是 一 种 简化 的 方法 。 可 以 从 其 他 文献 中 找到 另外 几 种 不 同 的 方法 用 于 执行 偏差 - 方 关 分解， 对 此 还 没有 
统一 的 方法 。 
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这 些 模型 是 在 所 有 可 能 的 、 相 同 大 小 的 训练 数据 集 上 所 建 的 ; 方差 是 单个 模型 的 期 望 误差 ， 
这 个 模型 是 在 某 个 具体 的 训练 数据 集 上 所 建立 的 。 从 理论 上 可 以 看 出 ， 平 均 多 个 建立 在 独立 
训练 集 上 的 模型 总 是 可 以 减 小 均 方 误差 期 望 值 。( 正如 我 们 先前 提 到 的 ， 这 种 模拟 结果 对 于 分 
类 来 说 不 是 完全 真实 的 。) 


7.5.2 考虑 成 本 的 装 绕 


当 学 习 方 法 不 稳定 时 ， 即 输入 数据 的 小 变化 能 导致 生成 差别 相当 大 的 分 类 器 ， 装 袋 可 以 
为 此 提供 最 大 的 帮助 。 实 际 上 ， 尽 可 能 地 使 学 习 方法 不 稳定 ， 有 助 于 增加 合成 分 类 器 中 的 差 
异性 (diversity )。 例 如 ， 对 决策 树 使 用 装 袋 技术 ， 决 策 树 是 不 稳定 的 ， 如 果 不 对 树 进 行 修剪 
使 决策 树 更 不 稳定 时 经 常会 获得 更 好 的 性 能 。 另 一 种 改善 可 通过 改变 分 类 预测 组 合 的 方法 来 
获得 。 装 袋 原 本 是 使 用 投票 法 ， 但 如 果 模 型 可 以 输出 概率 估计 而 不 只 是 简单 的 分 类 ， 那 么 凭 
直觉 将 这 些 概 率 取 平均 值 来 替代 投票 是 有 意义 的 。 这 样 做 不 仅 经 常 能 稍 许 改善 分 类 性 能 ， 而 
且 能 使 装 袋 的 分 类 器 产生 一 个 概率 估计 ， 经 常 比 单个 模型 所 产生 的 更 加 精确 。 因 此 装 袋 的 实 
现 通常 采用 这 种 方法 来 组 合 预测 。 

在 5.7 节 我 们 展示 了 怎样 通过 最 小 化 预测 的 期 望 成 本 使 一 个 分 类 器 对 成 本 敏感 。 正 确 的 概 
率 估计 是 必要 的 ， 因 为 要 用 它们 来 获取 每 个 预测 的 期 望 成 本 。 装 袋 是 成 本 敏感 分 类 的 最 佳 候 
选 ， 因 为 它 能 从 决策 树 和 其 他 一 些 功能 强大 但 不 稳定 的 分 类 器 中 产生 非常 精确 的 概率 估计 。 
但 是 ， 缺 点 是 应 用 了 装 袋 技术 的 分 类 器 很 难 分 析 。 

-种 称 为 MetaCost 的 方法 将 装 袋 的 预测 益处 和 一 个 易 理解 的 模型 组 合 起 来 ， 适 用 于 成 本 
敏感 的 预测 。 它 采用 装 袋 技术 建立 一 个 合成 分 类 器 ， 用 这 个 分 类 器 对 训练 数据 重新 赋予 标签 ， 
它 根据 装 袋 所 获得 的 概率 估计 ， 赋 予 每 个 训练 实例 一 个 类 预测 使 期 望 成 本 最 小 化 。MetaCost 
随后 丢弃 原先 的 类 标签 ， 从 重新 标签 的 数据 中 学 习 出 一 个 新 的 模型 ， 比 如 一 个 修剪 的 决策 树 。 
新 模型 会 自动 考虑 成 本 ， 因 为 已 经 含 在 类 标签 中 ! 结果 是 一 个 成 本 敏感 的 分 类 器 可 用 于 分 析 
预测 是 如 何 获 得 的 。 

除了 刚刚 提 到 的 成 本 敏感 分 类 技术 ， 在 5.7 节 中 还 描述 了 一 种 成 本 敏感 学 习 方 法 ， 它 是 通 
过 改变 每 个 类 在 训练 数据 中 的 比例 反映 到 成 本 和 矩阵 上 ， 来 学 习 一 个 成 本 敏感 分 类 器 。 
MetaCost 似乎 比 这 种 方法 能 获得 更 精确 的 结果 ， 但 它 需 要 更 多 的 计算 。 如 果 不 需要 得 到 一 个 
易于 理解 的 模型 ，MetaCost 的 后 加 工程 序 便 是 多 余 的 ， 最 好 直接 使 用 经 装 袋 后 的 分 类 器 与 最 
小 预期 成 本 法 共同 协作 。 


7.5.3 随机 化 


装 袋 法 将 随机 概念 引入 学 习 算法 的 输入 中 ， 产 生 一 个 不 同 的 合成 分 类 器 ， 经 常 带 来 极 好 
的 效果 。 然 而 ， 还 有 其 他 方式 应 用 随机 化 来 产生 差异 性 。 有 些 学 习 算法 本 身 已 带 有 一 个 内 置 
的 随机 机 构 。 例 如 、 使 用 反 向 传播 算法 学 习 一 个 多 层 感 知 器 时 〈 如 6.3 节 所 述 ) ， 网 络 权 值 被 
设 定 为 一 个 随机 选择 的 小 数值 。 所 学 的 分 类 器 依赖 于 这 个 随机 数值 ， 因 为 (根据 这 个 值 ) 算 
法 会 找到 一 个 不 同 的 误差 函数 的 局 部 最 小 值 。 要 使 分 类 结果 更 加 稳定 的 一 种 方法 是 使 用 不 同 
的 随机 数 多 次 重复 学 习 过 程 ， 然 后 将 多 个 分 类 器 的 预测 结果 通过 投票 或 平均 的 方法 组 合 起 来 。 

几乎 所 有 的 学 习 方 法 都 含有 某 种 意义 上 的 随机 化 。 考 虑 一 个 算法 要 在 每 步 贪心 式 地 挑选 
最 好 的 选择 ， 如 决策 树 学 习 器 在 每 个 节点 处 要 挑选 最 好 的 属性 来 进行 分 裂 。 可 以 通过 在 N 个 最 
好 的 选择 中 随机 挑选 一 个 ， 来 替代 原先 只 能 有 单个 胜 者 的 策略 ， 或 者 随机 选择 一 个 属性 子 集 
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然后 从 中 挑选 出 最 好 的 属性 ， 从 而 将 算法 实现 随机 化 。 当 然 ， 这 里 存在 一 个 权衡 问题 : 随意 
性 越 大 产生 的 学 习 器 越 具 有 差异 性 ， 而 另 一 方面 却 更 少 利用 数据 (信息 )， 可 能 会 造成 单个 模 
型 的 正确 率 下 降 。 最 好 的 随机 范围 只 有 通过 试验 才能 限定 。 

虽然 装 袋 和 随机 化 技术 产生 相似 的 结果 ， 但 要 将 它们 组 合 起 来 需要 付出 一 点 代价 ， 因 为 
它们 引入 随机 的 方法 不 同 ， 或 许 是 互补 型 的 。- -个 用 于 学 习 随 机 森林 (random forests) 的 流 
行 算法 在 装 袋 的 每 一 轮 循环 中 建立 随机 化 的 决策 树 ， 通 常 能 带 来 出 色 的 预测 结果 。 

由 于 必须 对 学 习 算法 进行 修改 ， 随 机 化 比 装 袋 法 需要 更 多 的 工作 量 ， 但 是 这 种 技术 能 适 
用 于 更 多 种 不 同类 型 的 学 习 器 。 前 面 我 们 已 经 注意 到 ， 装 袋 法 对 于 那些 输入 发 生 小 变化 而 输 
出 对 此 不 敏感 的 稳定 学 习 算 法 是 没有 用 处 的 。 例 如 ,在 最 近邻 分 类 器 上 应 用 装 袋 技术 便 是 训 
无 意义 的 ， 即 使 采用 重新 取样 将 训练 数据 打 乱 ， 它 们 的 输出 几乎 没有 什么 改变 。 然 而 ， 随 机 
化 却 仍 然 适 用 于 稳定 的 学 习 器 ， 秘 诀 在 所 选用 的 随机 化 方式 能 在 不 牺牲 太 多 性 能 指标 的 前 提 
下 使 分 类 器 具有 差异 性 。 最 近邻 分 类 器 的 预测 取决 于 实例 之 间 的 距离 ， 严 重 依 赖 于 选择 哪些 
属性 来 计算 距离 ， 因 此 最 近邻 分 类 器 可 通过 使 用 不 同 的 、 随 机 挑选 的 属性 子 集 来 实现 随机 化 。 


7.5.4 提升 

装 袋 法 充分 利用 了 学 习 算法 内 在 的 不 稳定 性 。 从 直觉 上 看 ， 只 有 当 各 个 模型 之 间 存 在 明 
显 差异 ， 并 且 每 种 模型 都 能 正确 处 理 -- 定 合理 比例 的 数据 时 ， 组 合 多 种 模型 才能 发 挥 用 处 。 
理想 状况 是 这 些 模 型 对 其 他 模型 来 说 是 一 个 补充 ， 每 个 模型 是 这 个 领域 中 某 一 部 分 的 专家 ， 
而 其 他 模型 在 这 部 分 却 不 能 很 好 表现 ， 就 像 是 执行 官 要 寻 砚 那些 技能 和 经 验 互补 的 顾问 ， 而 
不 是 互相 重复 的 。 

用 于 组 合 多 种 模型 的 提升 方法 通过 明确 地 搜寻 与 另 一 个 模型 互补 的 模型 来 挖掘 这 个 内 在 
的 见解 。 首 先 ， 相 似 点 是 与 装 袋 一 样 ， 提 升 利用 投票 (用 于 分 类 ) 或 者 取 平 均值 (用 于 数值 
RU) 来 组 合 各 个 模型 的 输出 。 另 外 ， 也 同 装 袋 一 样 ， 它 组 合同 一 类 型 的 模型 ， 例 如 决策 树 。 
然而 ， 提 升 是 循环 迭代 的 。 在 装 袋 中 各 个 模型 是 单独 建立 的 ， 而 提升 的 每 个 新 模型 是 受 先前 
已 建 模型 的 性 能 表现 影响 的 。 提 升 法 鼓励 新 模型 成 为 处 理 先前 模型 所 不 能 正确 分 类 的 实例 的 
专家 。 最 后 一 个 不 同 点 是 提升 根据 模型 的 性 能 来 对 每 个 模型 的 贡献 加 权 ， 而 不 是 赋予 每 个 模 
型 同等 的 权 值 。 

提升 存在 许多 不 同 的 实现 方法 。 这 里 描述 一 种 广泛 应 用 的 、 专 门 用 于 分 类 的 、 称 为 
AdaBoost.M1 的 方法 。 像 装 袋 技 术 一 样 ， 它 适用 于 任何 的 分 类 学 习 算 法 。 为 使 问题 简单 化 ， 
假设 学 习 算法 可 以 处 理 带 有 权 值 的 实例 , 实例 的 权 值 为 正 数 . (在 后 面 我 们 还 会 来 看 这 个 假设 。) 
实例 权 值 的 出 现 改变 了 分 类 误差 的 计算 方法 ， 误 差 等 于 错误 分 类 实例 的 权 值 总 和 除 以 所 有 实 
例 权 值 总 和 ， 和 替代 了 原来 错误 分 类 实例 的 比例 。 通 过 实例 加 权 ， 学 习 算法 可 以 将 精力 集中 于 
特定 的 实例 集 上 ， 即 那些 权 值 较 高 的 实例 。 这 些 实例 特别 重要 ， 因 为 存在 较 大 的 动力 要 对 它 
们 正确 分 类 。6.1 节 中 讲述 的 C4.5 算 法 是 无 需 修改 便 能 适合 加 权 实 例 的 学 习 方 法 的 一 个 样 例 ， 
因为 它 已 使 用 了 分 数 实例 (fractional instances) 观念 来 处 理 残缺 值 。 

图 7-8 总 结 了 提升 算法 ， 首 先 赋予 所 有 训练 实例 相同 的 权 值 ， 然 后 应 用 学 习 算 法 在 这 个 数 
据 集 上 生成 一 个 分 类 器 、 再 根据 这 个 分 类 器 的 分 类 结果 对 每 个 实例 重新 加 权 。 减 小 正确 分 类 
的 实例 权 值 ， 增 加 错误 分 类 的 实例 权 值 。 这 产生 了 一 组 权 值 较 低 的 “容易 对 付 ”实例 和 另 一 
组 权 值 较 高 的 “难以 对 付 ”实例 。 在 下 一 轮 循环 以 及 所 有 以 后 的 循环 中 ， 分 类 器 都 是 建立 在 
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经 重新 加 权 的 数据 上 ， 并 且 专 注 于 对 那些 难以 对 付 的 实例 进行 正确 分 类 。 然 后 依据 这 个 新 分 
类 器 的 分 类 结果 增加 或 减 小 实例 的 权 值 。 结 果 是 部 分 较 难 对 付 的 实例 可 能 变 得 更 难 ， 部 分 较 
易 对 付 的 实例 可 能 变 得 更 易 ; 另 一 方面 ， 其 他 较 难 对 付 的 实例 可 能 变 得 较 易 ， 较 易 对 付 的 实 
例 可 能 变 得 较 难 对 付 了 ， 在 实践 中 各 种 可 能 都 会 发 生 。 在 每 一 轮 循环 后 ， 权 值 反映 出 目前 所 
生成 的 分 类 器 对 实例 的 错误 分 类 有 多 频繁 。 通 过 对 每 个 实例 “难度 ”的 衡量 ， 这 个 程序 提供 
了 一 种 巧妙 的 方法 来 生成 一 系列 互补 型 的 专家 。 


模型 生成 
赋予 每 个 训练 实例 相同 的 权 值 。 
f 次 循环 中 的 每 一 次 : 
将 学 站 算法 应 用 于 加 了 权 的 数据 集 上 并 保存 结果 模型 。 
计算 模型 企 加 了 权 的 数据 集 上 的 误 差 e 并 保存 这 个 误差 。 
如 果 e 等 于 0 或 者 e 大 于 等 于 0.5: 
终止 建 模型 。 
对 于 数据 集中 的 每 个 实例 : 
如 果 模 型 将 实例 止 确 分 类 : 
将 实例 的 权 值 乘 以 e / (1 -e)。 
将 所 有 的 实例 权 值 进行 止 常 化 。 
分 类 
KPA ARR AO. 
apy Cae TI) 个 模型 中 的 每 一 个 : 
给 模型 所 预测 的 类 加 权 - log (e / (1 =e) )。 
| iP) RAR ADE. 





~ | 











图 7-8 提升 算法 


每 轮 循 环 后 ， 权 值 应 做 多 大 的 调整 呢 ? 这 个 答案 依赖 于 当前 分 类 器 的 总 体 误差 。 明 确 地 
说 ， 如 果 e 代 表 分 类 器 在 加 权 数 据 上 的 分 类 误差 (在 0 和 1 之 间 的 一 个 小 数 ) ， 那 么 对 于 正确 分 
类 的 实例 ， 权 值 更 新 为 

权 值 -RÉ xe/ (1-e) 
对 于 错误 分 类 的 实例 ， 权 值 保 持 不 变 。 当 然 ， 这 并 没有 如 前 所 述 ， 增 加 被 错误 分 类 的 实例 的 
权 值 。 然 而 ， 在 更 新 了 所 有 实例 的 权 值 后 ， 要 进行 正常 化 处 理 ， 使 它们 的 权 值 总 和 与 原来 的 
相同 。 每 个 实例 的 权 值 都 要 除 以 新 权 值 总 和 再 乘 以 原来 的 权 值 总 和 。 这 样 便 自动 增加 了 每 个 
错误 分 类 实例 的 权 值 ， 同 时 减 小 了 每 个 正确 分 类 实例 的 权 值 。 

每 当 在 加 权 的 训练 数据 集 上 的 误差 率 大 于 等 于 0.5 时 ， 提 升 程 序 将 删除 当前 的 分 类 器 并 不 
再 继续 进行 循环 。 当 误差 率 等 于 0 时 ， 也 同样 处 理 ， 因 为 这 时 所 有 实例 的 权 值 都 为 0。 

我 们 已 经 介绍 了 提升 方法 是 如 何 生成 一 系列 分 类 器 的 。 为 了 做 出 一 个 预测 ， 使 用 一 个 加 
了 权 的 投票 来 组 合 它们 的 输出 。 要 决定 这 些 权 值 ， 注 意 那些 在 加 了 权 的 训练 数据 上 ， 用 于 建 
立 该 分 类 器 的 数据 ， 性 能 表现 好 的 分 类 器 (e 接 近 于 0) 应 当 获 得 一 个 高 的 权 值 ， 而 性 能 表现 
差 的 分 类 器 (e 接 近 于 0.5) 则 应 获得 一 个 较 低 的 权 值 。 更 具体 地 说 


权 值 = log 一 < 
l-e 


这 是 一 个 在 0 和 无 穷 大 之 间 的 正 数 。 顺 便 提 一 下 ， 这 个 公式 也 解释 了 为 何在 训练 数据 上 性 能 表 
现 完美 的 分 类 器 要 删除 ， 因 为 当 e 为 0 时 ， 权 值 无 定义 。 为 了 做 出 预测 ， 将 投 给 菜 个 具体 类 的 





[324] 


214 HD NEFILIRSÄK 





所 有 分 类 器 的 权 值 相 加 ， 选 择 相 加 总 和 最 大 的 那个 类 别 。 

从 开始 我 们 便 假设 学 习 算 法 能 够 处 理 加 权 实 例 。 在 6.5 节 最 后 的 局 部 加 权 线 性 回归 部 分 中 
已 解释 了 如 何 调整 学 习 算法 以 便 处 理 加 权 实例 。 也 可 以 通过 重新 采样 ， 即 如 同 装 袋 法 中 使 用 
的 技术 ， 从 加 权 的 数据 集中 产生 一 个 不 考虑 权 值 的 数据 集 ， 从 而 不 用 调整 学 习 算法 。 在 装 袋 
法 中 ， 每 个 实例 被 选择 的 概率 是 等 同 的 ; 而 在 提升 法 中 ， 实 例 被 选择 的 概率 按 它 们 各 自 的 权 
值 比例 。 结 果 是 权 值 高 的 实例 重复 的 频率 高 ， 而 权 值 低 的 实例 可 能 都 不 会 被 选择 。 一 旦 新 数 
据 集 与 原始 数据 集 达 到 同样 大 小 ， 便 将 新 数据 集 传 给 学 习 方 法 ， 而 不 使 用 加 权 的 数据 集 。 正 
是 如 此 简单 。 

这 个 程序 的 一 个 缺陷 是 有 些 权 值 低 的 实例 不 会 被 选 入 重新 采样 的 数据 集中 ， 因 此 造成 在 
应 用 学 习 算 法 前 ， 部 分 信息 已 丢失 。 然 而 ， 这 也 可 以 成 为 -- 种 优点 。 当 学 习 方法 生成 了 一 个 
误差 大 于 0.5 的 分 类 器 时 ， 如 果 直 接 使 用 加 权 的 实例 ， 提 升 必须 终止 ; 而 如 果 是 采用 重新 取样 
的 方法 ， 可 以 丢弃 目前 重新 取样 的 数据 集 ， 使 用 不 同 的 随机 种 子 再 次 重新 取样 ， 生 成 一 个 新 
的 数据 集 ， 那 么 便 有 可 能 会 生成 一 个 误差 低 于 0.5 的 分 类 器 。 有 了 时， 使 用 重新 取样 的 方法 比 原 
先 采 用 加 权 方 法 的 算法 要 进行 更 多 次 的 提升 循环 。 

提升 技术 的 想法 起 源 于 机 器 学 习 研究 的 计算 学 习 理论 分 支 。 理 论 研 究 者 对 提升 感 兴趣 是 
因为 它 使 获得 性 能 保证 成 为 可 能 。 例 如 ， 可 以 看 到 随 着 循环 次 数 的 增加 ， 在 训练 数据 上 的 组 
合 分 类 器 误差 很 快 地 向 0 靠拢 〈 与 循环 次 数 呈 指数 级 的 速度 加 快 ) 。 不 幸 的 是 ， 正 如 5.1 节 中 所 
述 ， 在 训练 集 上 的 误差 保证 并 不 十 分 令 人 感 兴趣 ， 因 为 这 并 不 表示 在 新 数据 上 会 有 好 的 性 能 
表现 。 但 是 从 理论 上 上 看， 提升 技术 只 是 当 各 个 分 类 器 对 于 所 呈现 的 总 体 训练 数据 来 说 太 过 
“复杂 ”"，、 或 者 训练 误差 变 得 太 大 、 太 快 时 ， 才 会 在 新 数据 上 失败 (Schapire 等 人 1997 年 对 此 做 
了 精确 解释 )。 照 例 ， 问 题 在 于 要 找到 各 个 模型 的 复杂 度 和 它们 与 数据 的 拟 合 度 之 间 的 恰当 平 
衡 点 。 

如 果 提 升 法 在 新 的 测试 数据 上 能 成 功 地 减 小 误差 ， 它 常常 是 以 一 种 场面 浩大 的 方式 。 一 
个 非常 令 人 惊讶 的 发 现 是 当 在 训练 数据 上 的 组 合 分 类 器 误差 降 到 0 后 ， 持 续 进行 更 多 次 的 提升 
循环 ， 能够 在 新 数据 上 减 小 误差 。 研 究 者 对 这 个 结论 感到 吃惊 ， 因 为 它 似 乎 与 Occam 剃 刀 原 
理 相 矛 盾 ，Occam 刹 川 原理 宣称 在 两 个 能 同样 好 地 解释 试验 证 据 的 假设 中 ， 箭 单 的 那个 优先 。 
进行 更 多 次 的 提升 循环 ， 不 减少 训练 误差 并 没有 对 训练 数据 做 出 任何 更 好 的 解释 ， 但 肯定 增 
加 了 分 类 器 的 复杂 度 。 所 幸 的 是 ， 考 虑 分 类 器 在 所 做 预测 上 的 置信 和 度 可 以 解决 这 个 矛盾 。 这 
个 管 信 度 是 根据 真实 类 的 估计 概率 和 除了 真实 类 、 最 有 可 能 的 预测 类 的 估计 概率 之 间 的 差别 
来 衡量 的 ， 称 为 边 差 (margin) 的 量 。 这 个 边 差 越 大 ， 分 类 器 能 预测 出 真实 类 的 置信 度 便 越 
大 。 结 论 是 提升 在 训练 误差 降 到 0 之 后 能 增 大 这 个 边 差 。 画 出 达到 不 同 提升 循环 数 时 ， 所 有 的 
训练 实例 的 累积 边 差分 布 ， 可 以 看 到 这 个 效果 ， 这 个 图 称 为 边 差 曲线 (margin curve)。 因 此 ， 
如 时 考虑 边 差 量 来 解释 试验 证 据 ，Occam 谭 刀 原 理 还 是 同样 的 锋利 。 

提升 法 的 -个 好 处 是 能 在 重新 加 权 数 据 上 误差 低 于 0.5、 非 常 简单 的 分 类 器 中 产生 出 个 
功能 强大 的 组 合 分 类 器 。 通常 ， 这 个 方法 非常 简单 ， 特 别 是 对 于 二 类 学 习 问 题 ! 这 些 简单 的 
学 习 方法 称 为 弱 (weak) 学 习 器 ， 提 升 法 将 弱 学 习 器 转变 为 强 学 习 器 。 例 如 对 于 二 类 问题 ， 
将 提升 应 用 于 只 有 - 层 的 、 非 常 简单 的 决策 树 称 为 决策 树桩 (decision stump), ， 可 以 获得 好 结 
Ro 另 一 个 可 能 方法 是 将 提升 应 用 于 学 习 单 个 联合 规则 的 算法 ， 辟 如 决策 树 上 的 一 条 路 径 ， 
实例 的 分 类 是 依据 这 条 规则 是 否 覆 盖 了 这 些 实例 。 当 然 ， 多 类 数据 集 误差 率 要 达到 低 于 0.5 更 
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为 困难 些 。 提 升 技术 也 可 以 应 用 在 决策 树 上 ， 但 通常 比 决策 树桩 更 加 复杂 。 一 些 更 为 复杂 的 
算法 也 已 发 展 起 来 ， 它 们 能 对 非常 简单 的 模型 应 用 提升 技术 ， 在 多 类 情形 中 获得 成 功 。 

与 装 袋 技术 相 比较 ， 应 用 提升 技术 经 常 能 产生 出 在 新 数据 上 明显 精确 的 分 类 器 。 但 是 不 
RER 提升 有 时 在 实际 情形 中 会 失败 ， 它 会 产生 出 一 个 分 类 器 ， 性 能 明显 差 于 在 同样 数据 上 
建立 的 单个 分 类 器 。 这 表明 组 合 分 类 器 和 数据 过 度 拟 合 了 。 


7.5.5 又 加 回归 


提升 研究 一 开始 便 沿 起 了 研究 者 们 强烈 的 兴趣 ， 因 为 它 能 从 表现 一 般 的 分 类 器 中 获得 一 
流 的 性 能 。 统 计 学 家 很 快 发 现 它 可 被 重建 成 一 个 全 加 模型 的 贪心 算法 。 营 加 模型 在 统计 学 领 
域 有 了 相当 长 的 历史 。 一 般 来 说 ， 泛 指 任何 将 源 于 其 他 模型 的 贡献 相 加 起 来 产生 预测 的 方法 。 
大 多 数 用 于 到 加 模型 的 算法 不 是 独立 建立 基本 模型 的 ， 而 是 要 保证 与 男 一 个 模型 互补 ， 并且 
要 根据 某 些 特定 标准 来 形成 优化 预测 性 能 的 合成 模型 。 

提升 是 执行 正 向 分 段 胎 加 建 模 (forward stagewise additive modeling )。 这 类 算法 由 一 个 空 
的 合成 模型 开始 ， 相 继 合 并 新 成 员 。 在 每 个 阶段 ， 加 入 能 使 总 合成 模型 预测 性 能 达到 最 好 的 
模型 ， 而 不 改变 已 经 包括 在 合成 模型 中 的 成 员 。 对 合成 模型 的 性 能 优化 意味 着 下 一 个 模型 要 
专注 于 那些 在 合成 模型 上 表现 较 差 的 训练 实例 。 这 正 是 提升 所 做 的 ， 即 赋予 这 些 实例 更 大 的 
权 值 。 

这 里 介绍 :个 众所周知 的 、 用 于 数值 预测 的 正 向 分 段 王 加 建 模 方 法 。 先 建立 一 个 标准 的 
回归 模型 ， 如 ~- 个 回归 树 。 在 训练 数据 上 的 误差 即 在 预测 值 和 观测 值 之 间 的 差别 ， 称 为 残 差 
(residuals )。 然 后 学 习 第 二 个 模型 来 纠正 这 些 误差 。 也 许 用 另 一 个 回归 树 预测 观测 残 差 。 为 了 
达到 这 个 目的 ， 在 学 习 第 二 个 模型 之 前 用 它们 的 残 差 来 替代 原始 的 类 值 。 将 第 二 个 模型 所 做 
出 的 预 铀 登 加 到 第 一 个 预测 上 便 自 动 降低 了 在 训练 数据 上 的 误差 。 通 常 某 些 残 差 仍然 存在 ， 
因为 第 二 个 模型 也 不 是 完美 的 ， 因 此 继续 建立 第 三 个 模型 来 学 习 预 测 残 差 的 残 差 ， 依 此 类 推 。 
这 个 程序 令 人 回想 起 在 3.$ 节 中 所 见 的 用 于 分 类 的 、 带 有 例外 的 规则 。 

如 果 单 个 模型 能 使 预测 的 平方 误差 达到 最 小 值 ， 正 如 线性 回归 模型 那样 ， 那 么 这 个 算法 
总 体 上 能 使 整个 合成 分 类 器 的 平方 误差 达到 最 小 值 。 在 实践 中 当 基 本 学 习 器 使 用 一 种 启发 式 
近似 的 方法 效果 也 不 错 ， 警 如 用 6.5 节 中 介绍 的 回归 和 模型 树 学 习 器 。 实 际 上 ， 在 和 登 加 回归 中 
使 用 标准 的 线性 回归 作为 基本 学 习 器 是 毫 无 意义 的 ， 因 为 线性 回归 模型 的 总 和 还 是 一 个 线性 
回归 模型 ， 并 且 回 归 算 法 本 身 便 能 使 平方 误差 最 小 化 。 然 而 ， 如 果 基 本 学 习 器 是 一 个 基于 单 
个 属性 的 、 使 平方 误差 最 小 化 的 回归 模型 ， 情 况 就 不 同 了 。 对 照 称 为 多 重 线性 回归 的 标准 多 
属性 方法 ， 在 统计 学 上 称 它 为 简单 线性 回归 。 事 实 上 ,联合 使 用 又 加 回归 和 简单 线性 回归 ， 
并 且 重 复 进 代 直 到 合成 分 类 器 的 平方 误差 不 再 降低 ， 便 产生 一 个 登 加 模型 ， 与 最 小 平方 多 重 
线性 回归 函数 是 相同 的 。 

正身 分 段 合 加 回归 法 有 过 度 拟 合 的 倾向 ， 因 为 合 加 的 每 个 模型 越 来 越 与 训练 数据 拟 合 。 
使 用 交叉 验证 法 来 决定 何 时 停止 。 例 如 ， 对 每 种 不 同 循环 次 数 进行 交叉 验证 ， 次 数 达 到 用 户 
指定 的 某 个 最 大 值 ， 选 择 其 中 能 使 平方 误差 的 交叉 验证 估计 达到 最 小 值 的 那个 。 这 是 个 好 的 
停止 标准 ， 因 为 交叉 验证 产生 了 一 个 对 未 来 数据 相当 可 靠 的 误差 估计 。 另 外 ， 使 用 上 述 方 法 
并 联合 简单 线性 回归 作为 基本 学 习 器 ， 能 有 效 地 将 多 重 线性 回归 和 内 置 的 属性 选择 组 合 起 来 ， 
因为 如 果 能 降低 交叉 验证 误差 ， 它 只 会 包含 下 一 个 最 为 重要 的 属性 贡献 。 








216 E-E MEFILASBRK 





Ay FT SLAG A AE a) 5 Be BR HOO DD YG E OA YB FOUN UR BH Hy RAO RRR, MA 
而 使 每 个 后 继 模 型 与 残 差 氟 合 。 这 也 了 瞳 示 了 防止 过 度 拟 合 的 另 一 种 可 能 : 替代 原先 扣除 模型 
的 整个 预测 值 以 产生 下 一 个 模型 的 目标 值 ， 在 扣除 之 前 将 预测 值 乘 以 某 个 用 户 指定 的 在 0 和 1 
之 间 的 常量 来 减 小 预测 值 。 这 降低 了 模型 对 残 值 的 拟 合 ， 从 而 减少 过 度 拟 合 的 机 会 。 当 然 ， 
这 也 可 能 增加 要 获得 “个 好 的 登 加 模型 所 需 的 循环 次 数 。 减 小 乘 数 能 有 效 地 衰减 学 习 过 程 ， 
增加 在 恰当 时 刻 停 止 的 机 会 ， 但 也 增加 了 运行 时 间 。 


7.5.6 a&inlogistic 回归 


敬 加 回归 也 如 同 线性 回归 一 样 可 应 用 于 分 类 问题 。 然 而 从 4.6 节 中 了 解 到 对 于 分 类 问题 
logistic 回归 优 于 线性 回归 。 通 过 修改 正 向 分 段 建 模 方法 来 对 琶 加 模型 进行 类 似 的 调整 ， 便 可 
进行 到 加 logistic 回 归 (additive logistic regression). 如 同 在 4.6 节 中 那样 ， 利 用 对 数 转换 将 概 
率 估计 问题 转换 为 个 回归 问题 ， 并 像 对 待 释 加 回归 那样 使 用 一 个 合成 模型 (如 回归 树 ) 来 
完成 回归 任务 。 在 每 个 阶段 ， 添加 对 于 某 个 给 定 的 合成 分 类 器 能 使 数据 的 概率 达到 最 大 值 的 
模型 。 
假设 广 是 合成 分 类 器 中 的 第 /个 回归 模型 ， 广 (a) 是 这 个 模型 对 实例 a 的 预测 。 假 设 有 一 个 一 
KHB. EAE AR RF, (a) 来 获得 第 一 个 类 别 的 概率 估计 ; 


1 
Pa) = rar 


这 和 4.6 节 所 用 的 表达 式 非常 类 似 ， 这 里 使 用 了 缩写 ， 用 向 量 来 表示 实例 a， 并 且 原 来 的 加 权 
属性 值 总 和 被 赫 换 成 为 任意 复杂 的 回归 模型 /的 总 和 。 

图 7-9 展 示 了 二 类 问题 的 LogitBoost 算法 ， 它 进行 状 加 logistic 回 归并 产生 个 体 模 型 f 。 这 
里 对 于 属于 第 … 个 类 别 的 实例 ，y, 为 1; 对 于 属于 第 二 类 别 的 实例 ，w 为 0。 在 每 轮 循环 中 ， 
这 个 算法 要 使 回归 模型 f; 拟 合 原始 数据 集 的 加 权 版 本 ， 这 个 加 权 版 本 基于 假设 的 类 值 z, 和 权 值 
w; 。 我 们 假设 p (1 la) 是 根据 前 一 轮 循环 所 建 的 计算 出 来 的 。 


| ”模型 生成 | 
对 二 j=1 到 t 次 循环 : 
对 于 每 个 实例 afi]: 
将 四 归 的 月 标 值 设 定 为 
zfi}=(yli)-p(tlali))/[p(lali) x (1-p(dlali]))l] 
将 实例 a [让 ] 的 权 值 设 定 为 
plllali) x(t- p(lali))) 
使 四 由 模 弄 f 四 与 类 值 为 zf 让 ]、 权 值 为 w 自 的 数据 相 拟 合 。 
分 类 
如 果 p (11a ) > 0.5、 预 测 结 果 为 第 类别， 否则 为 第 类别， 














图 7-9 登 加 logistic 回 归 算 法 


这 个 算法 的 推导 过 程 在 此 书 的 讨论 范围 之 外 ， 但 是 可 以 看 出 如 果 每 个 模型 是 由 相应 的 回 
归 问 题 的 最 小 平方 误差 所 决定 的 ， 这 个 算法 是 依据 合成 模型 使 数据 概率 最 大 化 。 实际 上 ， 如 
采用 多 重 线性 回归 来 形成 / ， 算 法 会 在 最 大 似 然 线性 logistic 回 归 模 型 处 收 化， 它 是 4.6 节 中 所 
述 的 迭代 重新 加 权 的 最 小 平方 方法 的 化 身 。 

从 表面 上 看 、LogitBoost 和 AdaBoost 差 别 相当 大 ， 但 是 它们 所 形成 的 预测 器 主要 差别 是 


w 
N 
~N 
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在 前 者 直接 优化 似 然 、 而 后 者 优化 一 个 指数 级 的 损失 函数 ， 这 个 图 数 可 以 看 成 是 似 然 的 近似 
值 。 从 实践 角度 来 看 ， 差 别 是 LogitBoost 使 用 了 回归 方法 作为 基本 学 习 器 ， 而 AdaBoost 与 分 
类 算法 一 起 使 用 。 

我 们 只 讲述 了 用 于 - -类 问题 的 LogitBoost 方 法 , 然而 这 个 算法 还 可 以 推广 到 解决 多 类 问题 。 
如 同 登 加 回归 一 样 ， 可 以 用 一 个 预先 设 定 的 乘 数 来 减 小 单个 模型 f 的 预测 值 ， 并 且 利 用 交叉 验 
证 来 决定 - -个 适当 的 循环 数目 ， 从 而 降低 过 度 拟 合 的 危险 。 


7.5.7 选择 树 


装 袋 、 提 升 以 及 随机 化 都 生成 合成 分 类 器 。 很 难 分 析 何 种 信息 从 数据 中 被 提炼 出 来 。 如 
能 生成 具有 相同 预测 性 能 的 单个 模型 将 是 很 合 人 意 的 。 一 种 可 能 是 生成 一 个 人 工 数据 集 ， 它 
是 通过 从 实例 空间 随机 采样 数据 点 并 根据 合成 分 类 器 的 预测 来 赋予 它们 类 表 签 ， 然 后 从 这 个 
新 数据 集 上 学 习 出 一 个 决策 树 或 规则 集 。 为 了 能 从 决策 树 中 获得 与 合成 分 类 器 相似 的 预测 性 
能 、 可 能 需要 一 个 大 型 的 数据 集 ， 但 是 起 码 这 个 策略 要 能 够 复制 合成 分 类 器 的 性 能 ， 假 如 合 
成 分 类 器 本 身 包含 决策 树 ， 那 么 它 肯定 能 做 到 。 

另 一 种 方法 是 取得 能 简洁 地 代表 一 个 合成 分 类 器 的 单个 结构 。 如 果 合 成 分 类 器 是 由 决策 
树 组 成 ， 这 便 能 实现 ， 它 的 结果 称 为 选择 树 (option tree)。 选 择 树 与 决策 树 的 不 同 之 处 在 于 
它们 包含 两 种 类 型 的 节点 ， 决 策 节点 和 选择 节点 (option nodes)。 图 7-10 展 示 了 天 气 数据 的 一 
个 简单 例子 ， 它 只 带 有 一 个 选择 节点 。 要 对 一 个 实例 进行 分 类 ， 将 其 随 树 向 下 过 滤 。 在 决策 
节点 处 通常 只 选择 “个 分 支 ， 但 是 在 选择 节点 处 则 选择 所 有 的 分 支 。 这 意味 着 实例 最 终 以 一 
个 以 上 的 叶 节 点 而 告终 、 必 须 从 这 些 叶 节点 所 蓝 的 分 类 结果 中 组 合 出 一 个 总 体 分 类 结果 。 这 
可 以 简单 地 通过 投票 法 来 完成 ， 将 在 选择 节点 处 获得 多 数 投票 的 类 作为 该 节点 的 预测 值 。 在 
这 种 情况 下 ， 只 含 两 种 选择 项 的 选择 节点 (如 图 7-10) 没有 多 大 意义 ， 因 为 只 有 在 两 个 分 支 
都 一 致 时 才 会 产生 一 个 多 数 投票 类 。 另 一 种 可 能 方法 是 平均 从 不 同 路 径 上 所 获得 的 概率 估计 ， 
可 以 使 用 不 加 权 的 平均 或 是 更 为 复杂 的 贝 叶 斯 方法 。 





= overcast x overcast 





图 7-10 天 气 数据 的 简单 选择 树 
如 果 根 据 信息 增益 选择 树 中 存在 几 处 效果 相似 的 分 裂 ， 可 以 通过 修改 现存 的 决策 树 学 习 
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器 来 创建 一 个 选择 节点 ， 生 成 一 棵 选择 树 。 所 有 在 某 个 用 户 指定 的 最 好 选项 容许 范围 内 的 选 
项 均 可 放 和 选择 项 中 。 在 修剪 时 ， 选 择 节点 的 误差 率 是 它 的 选项 的 平均 误差 率 。 

另 … 个 可 能 方法 是 通过 递增 增加 节点 来 扩展 一 个 选择 树 。 通 常 是 采用 提升 算法 ， 结 果树 
通常 称 为 交替 式 决 策 树 (alternating decision tree) 而 不 是 选择 树 。 这 时 决策 节点 称 为 分 裂 节 
点 (splitter nodes )， 选 择 节点 称 为 预测 节点 (prediction nodes )。 预 测 节点 如 果 没 有 决策 节点 
增加 进来 便 为 叶 节点 。 标 准 的 交替 式 决 策 树 能 应 用 于 二 类 问题 ， 每 个 预 铀 节点 与 一 个 正 的 或 
负 的 数值 相关 联 。 要 获得 对 一 个 实例 的 预测 ， 将 其 沿 树 向 下 过 滤 所 有 可 适用 的 分 支 ， 并 总 和 
沿途 遇 到 的 所 有 预测 节点 处 的 值 ; 依据 总 和 数 是 正 数 还 是 负数 ， 来 预测 是 哪个 类 别 。 

图 7-11 展 示 了 一 个 简单 的 关于 天 气 数据 的 样本 树 ， 图 中 正 数 对 应 于 类 别 玩 = no， 负 数 对 应 
FRANK = yes. BAM = sunny， 温 度 = hot, 湿度 = normal, 刊 风 = false 这 些 实例 进行 分 
类 ， 将 其 沿 树 向 下 朝 着 相应 的 叶 节 点 过 滤 ， 获 得 值 - 0.255、0.213、- 0.430 以 及 - 0.331。 这 
些 值 的 总 和 是 负 的 ， 因 此 预测 出 玩 = yes。 正 如 此 例 所 示 ， 交 替 式 决策 树 总 是 在 树 根 有 个 预测 
节点 。 





= normal = true false 


图 7-11 天 气 数据 的 交 赫 式 决策 树 


交替 式 树 应 用 提升 算法 来 进行 扩展 。 例 如 ， 采 用 基本 学 习 器 是 用 于 数值 预测 的 提升 算法 ， 
譬如 先前 所 述 的 LogitBoost 方 法 。 假 设 基本 学 习 器 在 每 轮 提升 循环 中 产生 一 个 联合 规则 。 那 么 
简单 地 将 每 条 规则 加 入 到 树 中 便 能 形成 一 个 交替 式 决策 树 。 与 每 个 预测 节点 相关 联 的 数值 评 
分 是 从 规则 中 获得 的 。 但 是 ， 结 果树 可 能 很 快 就 变 得 很 大 ， 因 为 从 不 同 的 提升 循环 中 所 得 的 
规则 很 可 能 是 不 同 的 。 因 此 用 于 交 赫 式 决策 树 的 学 习 算 法 只 考虑 那些 通过 增加 一 个 分 裂 节 点 
和 两 个 相应 的 预测 节点 (假设 是 二 值 分 裂 ) 来 扩展 树 中 某 条 现存 路 径 的 规则 。 在 标准 版 本 的 
算法 中 ， 要 考虑 在 树 中 每 个 可 能 位 置 增加 节点 ， 按 照 具 体 的 提升 算法 所 决定 的 性 能 衡量 来 进 
行 节点 添加 。 可 用 启发 式 的 方法 来 替代 穷 举 搜索 以 提高 学 习 过 程 的 速度 。 
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7.5.8 Logistic 模型 树 

基于 单个 结构 的 选择 树 和 交替 式 决策 树 都 能 获得 非常 好 的 分 类 性 能 ， 但 是 当 含 有 许多 选 
择 节 点 时 仍然 很 难 解释 ， 因为 要 看 出 一 个 具体 的 预 而 是 如 何 获得 的 变 得 比较 困难 。 然 而 ， 人 
们 发 现 提升 也 可 以 用 于 建立 一 个 不 包含 任何 选择 节点 的 十 分 有 效 的 决策 树 。 例 如 应 用 
LogitBoost 算 法 归纳 出 一 种 树 ， 树 的 叶 节点 为 线性 logistic 回归 模型 ， 称 为 logistic 模 型 树 ， 并 
可 用 像 6.5 节 所 介绍 的 用 于 回归 的 模型 树 一 样 的 方法 来 进行 解释 。 

LogitBoost 执行 登 加 logistic 回 归 。 假 设 在 提升 算法 的 每 轮 循环 中 要 找到 一 个 适合 的 简单 
回归 函数 ， 它 考虑 所 有 属性 ， 找 出 误差 率 最 小 的 简单 回归 函数 ， 并 将 其 加 入 到 登 加 模型 中 。 
如 果 让 LogitBoost 算法 持续 运行 直至 收敛 ， 结 果 得 到 的 是 一 个 最 大 似 然 多 重 logistic 回归 模型 。 
然而 ， 为 了 优化 它 在 未 来 数据 上 的 性 能 、 通 常 没有 必要 等 到 收敛 ， 这 样 做 经 常 是 有 害 无 益 的 。 
可 以 对 给 定 的 循环 次 数 使 用 交叉 验证 估计 期 望 性 能 ， 当 性 能 指标 停止 上 升 则 停止 程序 ， 这 样 
可 以 来 决定 提升 的 大 概 循 环 次 数 。 

这 个 算法 的 一 个 简单 扩展 便 可 得 到 logistic 模 型 树 。 当 数据 中 不 再 存在 任何 结构 可 以 用 一 
个 线性 logistic 回归 函数 来 建 模 上 时， 终止 提升 程序 。 但 是 ， 如 果 将 注意 力 限定 在 数据 的 子 集 上 ， 
也 许 仍 然 存 在 可 用 线性 模型 来 匹配 的 某 种 结构 ， 这 些 数据 子 集 可 以 通过 譬如 标准 决策 树 使 用 
的 信息 增益 来 获得 。 一旦 添加 更 多 的 简单 线性 模型 也 不 再 能 获得 性 能 提高 ， 便 分 裂 数据 ， 在 
每 个 数据 子 集 上 各 自重 新 开始 提升 。 这 个 过 程 将 目前 所 生成 的 logistic 模 型 分 别 在 每 个 子 集 的 
数据 上 进行 精练 。 在 每 个 子 集 上 再 次 使 用 交叉 验证 决定 出 在 该 子 集 上 合适 的 循环 次 数 。 

递归 地 应 用 这 个 程序 直到 子 集 太 小 为 止 。 结 果树 肯定 会 对 训练 数据 过 度 拟 合 ， 可 以 用 决 
策 树 学 习 的 一 个 标准 方法 来 修剪 结果 树 。 试 验 显明 修剪 过 程 非常 重要 。 使 用 交叉 验证 法 来 选 
择 合适 的 树 大 小 ， 采 用 这 样 的 策略 能 使 这 个 算法 生成 小 但 非常 精确 的 树 ， 树 的 叶 节 点 带 有 线 
性 logistic 回 归 模 型 。 


7.5.9 堆栈 


堆栈 式 泛 化 (stacked generalization) 简称 堆栈 是 组 合 多 种 模型 的 另 一 种 不 同 的 方法 。 虽 
然 是 在 好 些 年 以 前 就 开发 了 ， 却 不 如 装 袋 和 提升 应 用 广泛 ， 一 部 分 原因 是 难以 进行 理论 分 析 ， 
另 一 部 分 原因 是 没有 一 致 公认 的 最 好 的 实现 方法 ， 基 本 观点 存在 许多 不 同 的 应 用 方式 。 

不 像 装 伐 和 提升 ， 堆 栈 法 通常 不 是 用 于 组 合同 种 类 型 的 模型 ， 辟 如 ， 一 系列 的 决策 树 。 相 
反 它 是 应 用 于 由 不 同学 习 算 法 所 建 的 模型 。 假 设 你 有 一 个 决策 树 归纳 器 、 一 个 村 素 贝 叶 斯 学 
习 器 和 一 个 基于 实例 的 学 习 方 法 ， 要 用 某 个 给 定 的 数据 集 形 成 一 个 分 类 器 。 通 常 的 程序 是 使 
用 交叉 验证 法 估计 每 个 算法 的 期 望 误差 率 ， 然 后 从 中 选择 一 个 最 好 的 模型 用 于 在 未 来 的 数据 
上 做 预测 。 难 道 没有 更 好 的 方法 了 吗 ? 现 有 三 个 学 习 算法 ， 难 道 不 能 利用 三 个 〈 模 型 ) 来 预 
测 ， 然 后 将 输出 结果 组 合 起 来 吗 ? 

一 种 组 合 输出 的 方法 是 使 用 投票 ， 就 像 装 袋 中 所 使 用 的 机 构 。 但 是 ， 如 果 学 习 方 案 性 能 
相当 好 ，( 不 加 权 的 ) 投票 才 有 意义 。 如 果 三 个 分 类 器 中 有 两 个 所 做 的 预测 是 不 正确 的 便 有 麻 
HT! 然而 ， 堆 栈 引 入 了 替代 投票 程序 的 元 学 习 器 (metalearner) 概念 。 投 票 的 问题 在 于 不 
清楚 要 相信 哪个 分 类 器 。 堆 栈 试图 去 学 习 哪 个 分 类 器 是 可 靠 的 ， 它 使 用 另 一 种 学 习 算 法 即 元 
学 习 器 ， 来 揭示 怎样 才能 最 好 地 组 合 基本 学 习 器 的 输出 。 

元 模型 的 输入 亦 称 为 1 层 模 型 (level-1 model), EPRE (或 称 0 层 模型 ) 所 做 出 的 预 
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测 。1 层 实例 所 含 的 属性 数量 等 于 0 层 学 习 器 的 个 数 ， 属 性 值 是 这 些 学 习 器 对 相应 的 0 层 实例 所 
BHUAN. (GE HE Be OT BE A ro KM., KAERAREN H, Fae MA 
-个 类 值 。 这 些 猜测 值 被 输入 1 层 模 型 ， 这 个 模型 将 它们 组 合 输 出 最 终 的 顶 测 。 

还 存在 训练 1 层 学 习 器 的 问题 。 需 要 找到 能 将 0 层 训 练 数据 (用 于 训练 0 层 学 习 器 ) 转换 为 
1 层 训练 数据 (用 于 训练 1 层 学 习 器 ) 的 方法 。 这 似乎 很 直截了当 ， 让 每 个 0 层 模型 对 训练 实 
例 进行 分 类 ， 将 实例 的 真实 类 别 附 加 到 它们 的 预测 结果 上 得 到 1 层 的 训练 实例 。 不 幸 的 是 ， 效 
果 不 怎么 好 。 它 会 允许 学 习 这 样 的 规则 ， 警 如 总 是 相信 和 A 分 类 器 的 输出 却 忽 略 B 以 及 C 分 类 器 
的 输出 。 这 个 规则 也 许 对 于 某 些 特定 的 基本 分 类 器 A、B 和 C 是 适合 的 ， 如 果真 是 这 样 ， 或 许 
就 会 被 学 习 到 。 但是， 只 是 似乎 适合 训练 数据 并 不 意味 着 在 测试 数据 上 会 好 ， 因 为 这 不 可 如 
免 地 会 更 倾向 于 对 训练 数据 过 度 拟 合 的 分 类 器 ， 而 不 是 那些 能 够 做 出 更 与 实际 相符 的 决策 的 
分 类 器 。 

因此 ， 堆栈 不 是 简单 地 用 这 种 方法 将 0 层 训练 数据 转换 为 1 层 训 练 数据 。 回 顾 第 5 章 中 所 述 
的 有 比 使 用 训练 集 上 的 误差 率 更 好 的 方法 来 估计 一 个 分 类 器 的 性 能 。 -种 方法 是 旁 置 部 分 实 
例 ， 并 用 它们 进行 一 个 独立 的 评估 。 将 这 个 方法 应 用 于 堆栈 ,保存 部 分 实例 作为 形成 1 层 学 习 
器 的 训练 实例 ， 用 其 余 的 实例 来 建立 0 层 分 类 器 。- 一 旦 建立 了 0 层 分 类 器 ， 便 用 它们 对 旁 置 的 
实例 进行 分 类 ， 如 先前 所 述 那样 形成 1 层 训练 数据 。 由 于 0 层 分 类 器 没有 用 这 些 数据 训练 ， 对 
它们 所 做 的 预测 是 无 偏 的 ， 因 此 ，1 层 训练 数据 能 精确 反映 0 层 学 习 算法 的 真实 性 能 。 一 旦 采 
用 这 种 旁 置 程序 生成 了 1 层 数 据 ， 可 再 次 应 用 0 层 学 习 器 在 整个 训练 数据 上 训练 生成 分 类 器 ， 
以 更 好 地 利用 数据 并 获得 更 好 的 预测 。 

旁 置 法 不 可 加 免 地 剥夺 了 1 层 模型 的 部 分 训练 数据 。 在 第 5 章 中 介绍 了 交叉 验证 法 作为 应 
付 这 个 问题 出 现在 误差 估计 上 的 -~ 条 妙计 。 这 种 方法 也 可 以 和 堆栈 … 起 联合 使 用 ， 对 每 个 0 层 
学 习 器 执行 交叉 验证 。 训 练 数据 中 的 每 个 实例 正好 在 某 个 交叉 验证 测试 折 中 出 现 一 次 ， 并 将 
由 相应 的 训练 折 所 建立 的 0 层 模 型 对 其 做 出 的 预测 用 于 生成 1 层 训 练 实例 。 这 为 每 个 0 层 训练 实 
例 生 成 了 一 个 1 层 训 练 实例 。 当 然 ， 由 于 0 层 分 类 器 要 在 交叉 验证 的 每 个 折 上 训练 ， 因 此 速度 
较 慢 ， 但 是 它 能 让 1 层 分 类 器 使 用 整个 训练 数据 。 

对 于 某 个 给 定 的 测试 实例 ， 大 多 数 的 学 习 方 法 能 得 出 每 个 类 别 的 概率 来 替代 只 做 类 别 预 
测 。 使 用 概率 来 生成 1 层 数据 能 改进 堆栈 的 性 能 。 这 和 标准 程序 的 区 别 只 是 在 于 每 个 1 层 名 词 
性 属性 ， 代 表 由 0 层 学 习 器 所 做 出 的 预测 类 别 ， 被 几 个 数值 属性 所 代替 ， 每 个 属性 代表 由 0 层 
学 习 器 所 得 的 一 种 类 概率 输出 。 换 句 话 说 就 是 ， 在 1 层 数据 中 的 属性 数量 是 类 别 数 目的 倍数 。 
这 个 程序 有 个 益处 、 即 1 层 学 习 器 能 了 解 每 个 0 层 学 习 器 对 它 所 做 预测 的 置信 和 度 ， 从 而 加 强 了 
两 个 层面 学 习 乙 则 的 交流 。 

还 有 -个 重要 的 问题 ，1 层 学 习 器 适合 使 用 什么 样 的 算法 呢 ? 原则 上 ， 任 何 学 习 方 案 都 可 
以 用 。 但 是 ， 因 为 大 多 数 工作 已 由 0 层 学 习 器 完成 了 ，1 层 分 类 器 只 是 一 个 仲裁 者 ， 因 此 选择 
一 种 相对 简单 的 算法 来 达到 此 目的 是 有 意义 的 。 堆栈 的 发 明 者 David Wolpert 说 “相对 全 局 化 、 
平滑 ”的 1 层 推 广 效果 较 好 是 合理 的 。 简 单 的 线性 模型 或 在 叶 节 点 带 有 线性 模型 的 树 通常 表现 
较 好 。 

堆栈 也 适用 于 数值 预测 。 在 此 情形 下 .0 层 模型 和 1 层 模 型 都 要 预测 数值 。 基 本 的 机 构 还 
是 一 样 的 ， 差 别 只 是 在 1 层 数据 的 特性 。 在 数值 情况 下 ， 每 个 1 层 属性 代表 某 个 0 层 模 型 所 做 出 
的 数值 预 出 ， 数 值 型 的 目标 值 被 附加 在 1 层 训 练 实例 上 来 代替 原先 的 类 值 。 
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7.5.10 误差 纠正 输出 编码 

误差 纠正 输出 编码 是 用 于 改进 多 类 学 习 问 题 的 分 类 算法 性 能 的 -- 种 技术 。 回 顾 第 6 章 所 述 ， 
有 些 学 习 算法 ， 例 如 标准 的 支持 向 量 机 ， 只 能 用 于 一 类 问题 。 为 了 将 这 类 算法 应 用 于 多 类 数 
据 集 ， 要 将 数据 集 分 解 成 几 个 独立 的 二 类 问题 ， 每 个 运行 算法 ， 再 组 合 结果 分 类 器 的 输出 。 
误差 纠正 输出 编码 就 是 做 这 种 转换 的 一 种 方法 。 事 实 上 ， 这 个 方法 效果 如 此 好 ， 即 使 学 习 算 
法 能 够 直接 处 理 多 类 数据 集 ， 应 用 这 个 方法 也 经 常 能 获 益 。 

在 4.6 节 ，、 我 们 学 习 了 怎样 将 -一 个 多 类 数据 集 转换 为 几 个 二 类 数据 集 。 为 每 个 类 生成 一 个 
数据 集 ， 数 据 集 复制 了 原始 数据 中 的 每 个 实例 ， 但 对 类 值 进行 了 修改 。 如 果实 例 的 类 别 与 所 
对 应 的 数据 集 相关 联 ， 则 类 别 标记 为 yes ， 和 否则 标记 为 ao 。 然 后 在 每 个 这 样 的 二 类 数据 集 上 
建 并 分 类 器 ， 这 些 分 类 器 能 输出 带 有 置信 度 的 预测 ， 例 如 类 别 为 yes 的 估计 概率 。 在 分 类 过 程 
中 ， 测 试 实例 被 输入 每 个 二 类 分 类 器 ， 最 终 的 类 别 为 预测 结果 yes 且 置信 度 最 大 的 那个 分 类 器 
所 对 应 的 类 别 。 当 然 ， 这 个 方法 对 分 类 器 所 得 出 的 置信 和 度 的 正确 性 很 敏感 ， 如 果 部 分 分 类 器 
夸大 了 它们 的 预测 ， 总 体 结果 将 受 影响 。 

HE -个 含 4 个 类 a、b、c 和 d 的 多 类 问题 。 数 据 集 转换 如 表 7-1(a) 所 示 ，yes 和 no 分 别 对 应 为 
1 和 0。 每 个 原始 的 类 值 被 转换 成 一个 4 位 的 编码 ， 每 个 类 别 对 应 于 1 位 ， 需 要 用 4 个 分 类 器 分 别 
预测 每 个 位 。 根 据 这 些 编码 来 诠释 分 类 过 程 ， 当 错误 的 位 得 到 了 最 高 的 置信 度 便 发 生 了 错误 。 

表 7-1 将 多 类 问题 转换 为 二 类 问题 : (a) 标准 方法 (b) 误差 纠正 编码 


类 类 别 向 量 类 FR allt Bk 
a 1000 a LILE? 
b 0100 b 000011) 
c 0010 c 0011001 
d 0001 d 0101010 


(a) (b) 


但 并 不 是 定 要 使 用 如 表 所 示 的 这 种 编码 。 实 际 上 ， 为 何 每 个 类 必须 用 4 位 编码 表示 也 是 
毫 无 理由 的 。 再 来 看 表 7-1(b) 所 列 的 编码 ， 这 里 用 7 位 编码 来 代表 每 个 类 别 ， 应 用 于 数据 集 时 ， 
要 建立 7 个 分 类 器 向 不 是 4 个 。 为 了 看 清 得 到 的 是 什么 ， 考 虑 对 某 个 具体 实例 的 分 类 。 假 设 实 
例 是 属于 a 类 的 ， 各 个 分 类 器 的 预测 (分别 ) 是 1011111。 很 明显 ， 将 此 编码 与 表 7-1(b) 中 的 编 
码 相 比较 ， 第 二 个 分 类 器 出 错 了 : 预测 是 0 而 非 1， 即 no 而 非 yes 。 然 而 ， 将 这 个 编码 的 预测 位 
与 关联 每 个 类 别 的 编码 相 比 较 ， 这 个 实例 显然 更 接近 于 类 别 a。 可 以 通过 (计算 ) 转换 预测 编 
码 成 为 表 7-1(b) 中 所 列 编码 所 必须 改变 的 位 数 使 其 量化 ， 称 为 汉 明 距离 (Hamming distance), 
或 者 说 对 于 a、b、c 和 a 四 个 类 别 的 差异 分 别 为 1、3、3 和 5 位 。 这 样 便 可 以 明确 地 定论 第 二 个 
分 类 器 出 现 了 错误 分 类 ， 并 能 正确 分 辨 出 a 是 实例 的 真实 类 别 。 

用 表 7-1(a) 中 的 编码 不 可 能 实现 这 样 的 误差 纠正 ， 因 为 除了 这 4 种 4 位 编码 ， 对 于 其 他 任何 
预测 出 的 4 位 编码 ， 至 少 会 产生 2 个 相等 距离 。 这 种 输出 不 能 “ 纠 错 ”。 

是 什么 决定 了 一 种 编码 可 以 或 者 不 可 以 纠 错 呢 ?考虑 代表 不 同类 别 的 编码 之 间 的 汉 明 距 
离 。 能 够 被 纠正 的 错误 数量 是 由 任意 两 个 编码 之 间 最 小 距离 4 所 决定 的 。 编 码 可 以 保证 最 多 纠 
止 (4d ~ 1) 2 个 错误 位 ， 因 为 即使 这 个 位 数 的 纠正 编码 发 生 了 错误 ， 它 仍然 是 最 近 的 ， 因 此 能 
被 正确 地 分 辨 出 来 。 在 表 7-1(a) 中 每 对 编码 之 间 的 汉 明 距离 是 2， 因 此 最 小 距离 4 也 等 于 2， 所 


W 








222 第 一 部 分 MEFILTASRK 


以 能 纠正 的 错误 位 数 是 0! 然而 ， 在 表 7-1(b) 中 ， 编 码 间 的 最 小 距离 是 4 (实际 每 对 编码 间 的 路 
离 都 是 4)。 这 便 意 味 着 它 能 确保 纠正 一 个 错误 位 。 

我 们 已 可 以 确定 好 的 误差 纠正 的 … 个 特性 : 编码 必须 按照 它们 的 汉 明 距离 适当 地 分 隔 开 
来 。 由 于 它们 构成 了 编码 表 的 行 ， 这 个 特性 称 为 行 分 隔 (row separation )。 一 个 好 的 误差 纠正 
编码 所 应 满足 的 第 一 个 要 求 : 列 分 隔 (column separation ) 。 每 对 列 之 间 的 汉 明 距离 必须 要 大 ， 
每 个 列 和 其 他 列 的 互补 列 之 间 也 必须 要 有 这 么 大 的 距离 。 在 表 7-1(b) 中 ，7 个 列 与 其 余 每 列 
(以 及 其 余 每 列 的 互补 列 ) 分 隔 至 少 有 1 位 。 

列 分 隔 是 必要 的 ， 如 果 两 个 列 是 相同 的 (或 者 一 个 是 另 -- 个 的 互补 列 )， 那 么 对 应 的 分 类 
器 会 产生 同样 的 误差 。 如 果 误 差 是 关联 的 ， 换 名 话说， 如 果 许 多 位 置 同时 出 现 错误 ， 那 么 误 
差 纠 正 能 力 将 被 削弱 。 列 之 间 的 距离 越 大 ， 便 有 可 能 纠正 越 多 的 错误 。 

对 于 类 别 数量 少 于 4 类 的 情形 ， 不 可 能 组 建 出 一 个 有 效 的 误差 纠正 编码 ， 因 为 不 可 能 同时 
获得 好 的 行 分 隔 和 好 的 列 分 隔 。 例 如 ， 对 于 -- 个 三 类 问题 ， 只 有 8 个 可 能 的 列 (23)， 其 中 4 个 
与 男 外 4 个 互补 。 而 且 爹 为 0 的 列 和 全 为 1 的 列 没有 任何 分 辨 能力。 只 剩 下 3 个 可 能 的 列 ， 造 成 
结果 编码 不 具备 误差 纠正 能 力 。( 实 际 上 ， 这 是 标准 的 “一 个 类 对 应 -- 个 编码 ”的 编码 方法 。) 

如 果 类 别 数 很 少 ， 可 以 建立 如 表 7-1(b) 所 示 的 穷 举 误 差 纠 正 编码 。 在 k 个 类 别 的 穷 举 编码 
中 ， 列 由 所 有 可 能 的 k 位 字符 串 组 成 ， 除 掉 互 补 列 以 及 全 0 或 全 1 的 字符 串 。 每 个 编码 包含 
2" "一 1 位 。 编 码 结构 如 下 : 对 应 第 一 个 类 别 的 编码 全 部 由 1 组 成 ; 对 应 第 二 个 类 别 的 编码 由 2 
MORRE? -1 个 1 组 成 ; 对 应 第 三 个 类 别 的 编码 由 2 ?个 0 紧 跟 着 24-3? 个 1 紧 跟着 2-3? 个 0 再 
紧 跟着 2 “- 1 个 1 组 成 ; 依 此 类 推 。 第 ;个 编码 交替 轮换 2… 个 0 和 1， 最 后 -- 轮 要 少 -一 位 数 。 

类 别 数 多 ， 由 于 列 数 呈 指数 增长 ， 要 建 的 分 类 器 太 多 了 ， 因 此 穷 举 编码 不 可 行 。 这 时 ， 


可 以 应 用 更 为 复杂 的 方法 ， 利 用 较 少 的 列 数 生 成 -种 具有 好 的 误差 纠正 特性 的 编码 。 


误差 纠正 输出 编码 不 能 用 于 局 部 学 习 算法 ， 诸 如 通过 观察 附近 训练 实例 来 预测 一 个 实例 
类 别 的 基于 实例 的 学 习 。 在 使 用 最 近邻 分 类 器 情形 中 ， 所 有 的 输出 位 都 是 利用 相同 的 训练 实 
例 所 做 出 的 预测 ， 这 个 间 题 可 以 巧妙 地 通过 使 用 不 同 的 属性 子 集 来 预测 每 个 输出 位 ， 从 而 解 
除 预测 关联 。 


7.6 使 用 没有 类 标的 数据 


在 第 2 章 介绍 机 器 学 习 过 程 时 ， 将 有 指导 的 学 习 和 无 指导 的 学 习 之 间 加 以 了 严格 的 区 别 ， 
即 分 类 和 聚 类 。 最 近 ， 研 究 者 们 开始 探索 位 于 两 者 之 间 的 领域 ， 有 时 称 为 半 指 导 学 习 , 目的 是 
要 进行 分 类 ， 但 是 输入 是 由 有 类 标 和 无 类 标的 数据 共同 组 成 的 。 当 然 ， 没 有 带 类 标签 的 数据 是 
无 法 进行 分 类 的 ， 因 为 只 有 类 标签 可 以 告知 类 别 。 但 是 ， 有 时 用 一 大 堆 无 类 标 数据 来 扩展 一 个 
少量 的 有 类 标 数据 是 很 具有 吸引 力 的 。 结 论 是 无 类 标 数据 有 助 于 类 别 学 习 。 这 怎么 可 能 呢 ? 

首先 ， 为 什么 需要 这 样 做 ?许多 情况 都 呈现 大 量 的 原始 数据 ， 但 是 要 赋予 它们 类 别 却 代 
价 很 高 ， 因 为 要 靠 入 类 的 洞察 力 。 文 本 挖 拨 便 是 经 典 的 例子 。 假 设 要 按照 预先 定好 的 类 别 来 
进行 网 页 分 类 。 在 学 院 设置 中 ， 你 可 能 对 教职员 工 、 人 研究 生 、 课 程 信息 、 研 究 组 、 系 科 等 等 
这 些 网 页 有 兴趣 。 可 以 从 大 学 网 站 上 很 容易 地 下 载 数 千 个 、 或 者 数 百 万 个 相关 的 网 页 。 但 是 
给 训练 数据 加 上 类 标签 却 是 个 费力 的 人 工 过 程 。 或 者 ， 假 设 你 的 工作 是 要 利用 机 器 学 习 来 识 
别 文本 中 的 名 称 ， 区 分 出 人 名 、 公 司 名 和 地 名 。 下 载 儿 兆 、 或 者 几 千 兆 的 文本 是 很 容易 的 ， 
但 是 要 从 中 挑 出 名 称 并 进行 分 类 ， 将 其 转换 为 训练 数据 ， 这 个 任务 只 能 靠 人 工 完成 。 新 闻 稿 
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件 分 类 、 电 子 邮 件 分 类 、 学 习 用 户 阅 读 兴 趣 ， 应 用 是 非常 广泛 的 。 先 将 文本 撒 在 一 边 ， 假 设 
要 学 习 从 电视 新 闻 广播 中 识别 某 个 著名 人 物 。 可 以 很 容易 录 下 成 千 上 百 个 小 时 的 新 闻 节 目 ， 
但 要 赋予 标签 还 是 要 用 人 工 方式 。 在 上 述 这 些 情形 中 ， 如 能 利用 一 大 堆 没 有 标签 的 数据 ， 从 
仅 有 的 - 些 有 标签 的 实例 中 获得 优异 的 性 能 ， 这 将 是 件 令 人 感 兴趣 的 事 ， 尤 其 是 假设 你 是 个 
研究 生 却 要 做 赋予 标签 的 工作 ! 


7.6.1 用 于 分 类 的 聚 类 


怎样 利用 没有 类 标的 数据 来 改善 分 类 ? 这 里 有 个 简单 的 想法 。 应 用 朴素 贝 叶 斯 法 从 一 个 
小 型 的 有 类 标的 数据 集中 学 习 类 别 ， 然 后 使 用 6.6 节 中 所 述 的 EM (期 望 最 大 化 ) 和 迭代 聚 类 算 
法 扩展 应 用 到 大 型 的 没有 类 标的 数据 集 上 。 程 序 如 下 : 首先 ， 利 用 有 标签 数据 训练 出 一 个 分 
类 器 。 第 二 步 ， 将 分 类 器 应 用 到 没有 标签 的 数据 上 ， 根 据 所 得 类 概率 赋予 它们 类 标 《“ 期 望 ” 
步骤 )。 第 三 步 ， 使 用 所 有 数据 的 类 标 训 练 出 一 个 新 的 分 类 器 ORK” SR). BOS, E 
行 迭 代 直 至 收 伐 。 可 以 将 此 想象 为 迭代 附 类 过 程 ， 起 始点 和 聚 类 标签 是 从 有 标签 的 数据 上 获 
得 的 。，EM 程 序 确 保 在 每 轮 迭 代 中 找到 大 于 或 等 于 似 然 的 模型 参数 。 只 能 从 试验 中 得 到 答案 的 
一 个 关键 性 问题 是 ， 这 些 更 高 的 似 然 参数 估计 器 是 否 能 改善 分 类 正确 率 。 

从 直觉 来 看 ， 这 个 效果 应 该 不 错 。 考 虑 文件 分 类 问题 。 某 些 词 组 预示 着 类 别 。 有 些 出 现 
在 有 标签 的 文件 中 ， 而 另外 有 一 些 只 出 现在 没有 标签 的 文件 中 。 然 而 也 有 可 能 在 某 些 文件 中 
两 者 都 包含 了 ，EM 程序 正 是 使 用 了 这 类 文件 ， 推 广 所 学 的 模型 从 而 利用 了 那些 不 在 有 标签 
的 数据 集中 出 现 的 词组 。 例 如， 导师 (supervisor) 和 博士 生 课题 (PhD topic) 这 两 个 词组 可 
能 都 是 预示 了 研究 生 主 页 。 假 设 有 标签 的 文件 中 只 出 现 前 面 那个 词组 ， EM 和 迭代 对 模型 进行 
推广 ， 能 对 只 包含 后 面 那个 词组 的 文件 进行 正确 分 类 。 

这 适用 于 任何 分 类 器 与 任何 迭代 聚 类 算法 。 然 而 ， 它 从 本 质 上 来 说 是 一 个 自 引 导 程 序 ， 
要 小 心 确保 反馈 循环 是 正 的 。 使 用 概率 而 非 强硬 的 决策 似乎 更 有 益 ， 因 为 它 使 程序 慢 慢 地 收 
敏 而 不 是 立即 做 出 可 能 是 错误 的 结论 。 在 6.6 节 中 所 述 的 朴素 贝 叶 斯 和 概率 EM 程序 是 特别 适 
合 的 选择 ， 因 为 它们 共有 相同 的 基本 假设 : 属性 间 的 独立 性 ， 或 者 更 精确 地 说 ， 对 于 给 定 类 
别 属 性 之 间 条 件 独立 。 

当然 ， 独 立 假设 被 普遍 性 地 违反 。 甚 至 在 前 面 所 述 的 例子 中 ， 用 了 由 两 个 单字 所 构成 的 
词组 PhD topic 而 在 真实 程序 实现 时 ， 和 希望 属性 都 使 用 单个 的 单词 ， 假 如 我 们 单 用 PhD 或 
topic 中 的 任何 一 词 ， 上 述 例子 限制 性 就 差 多 了 。 词 组 博士 生 (PhD students) 可 能 较 之 研究 
生 网 页 更 预示 着 是 教职员 工 网 页 ; 而 词组 研究 课题 (research topic) 却 不 太 有 分 辨 力 。 事 实 
是 对 于 例子 所 给 定 的 类 来 说 ，PhD 和 topic 不 是 条 件 独 立 的 : 是 它们 的 组 合 表 现 出 了 研究 生 网 
页 的 特性 。 

然而 、 如 此 结合 朴素 贝 叶 斯 和 EM 在 文件 分 类 领域 效果 不 错 。 在 某 个 具体 的 分 类 任务 中 ， 
仅 使 用 了 少 于 三 分 之 一 的 带 有 类 标的 训练 实例 以 及 (训练 实例 ) 五 倍 之 多 的 没有 类 标的 实例 ， 
却 得 到 了 传统 学 习 器 所 能 达到 的 性 能 。 当 有 标签 的 实例 代价 昂贵 而 没有 标签 的 实例 可 免费 获 
得 时 ， 这 是 一 个 很 好 的 交易 。 当 有 标签 文件 数量 很 少时 ， 结 合 大 量 无 标签 的 实例 能 大 大 提高 
分 类 正确 率 。 

两 种 程序 改进 被 显示 能 改善 性 能 。 第 一 种 是 根据 试验 证 据 而 来 ， 当 存在 较 多 有 标签 文件 
时， 结合 无 标签 实例 可 能 会 降低 正确 率 却 不 能 提高 正确 率 。 经 手工 标签 的 数据 自然 要 比 自动 ”[33 引 
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标签 的 数据 存在 更 少 的 和 干扰。 解决 方法 是 引入 一 个 能 减少 无 标签 数据 贡献 的 加 权 参 数 。 这 可 
以 结合 在 EM 的 最 大 化 步骤 中 ， 使 有 标签 和 无 标签 实例 的 加 权 似 然 最 大 化 。 当 参数 接近 于 0 时 ， 
无 标签 文件 在 EM 的 上 升 面 上 几乎 没有 影响 ; 当 参 数 接近 于 1 时 ， 算 法 回复 到 原始 版 本 ， 两 种 
文件 对 其 影响 是 相同 的 。 

第 一 种 改进 是 允许 每 个 类 别 有 几 个 聚 类 。 正 如 6.6 节 中 所 述 ，EM 聚 类 算法 假设 数据 是 从 
-个 含有 不 同 概率 分 布 的 混合 体 中 随机 生成 的 ， 每 个 聚 类 对 应 -种 分 布 。 到 目前 为 止 ， 都 是 
假设 混合 成 员 和 类 别 之 间 是 -一 对 应 的 。 在 许多 情形 中 ， 这 是 不 现实 的 ， 包 括 文件 分 类 ， 因 
为 大 多 数 文件 涉及 多 种 主题 。 当 采用 每 个 类 别 含 有 多 个 聚 类 时 ， 每 个 有 标签 的 文件 最 初 是 以 
一 种 概率 的 形式 随机 赋予 到 它 的 每 个 成 员 中 的 。EM 算法 的 最 大 化 步 又 和 以 前 -- 样 ， 但 是 期 
望 步骤 被 修改 成 不 只 是 赋予 每 个 实例 类 别 概率 标签 ， 而 是 按照 概率 将 其 赋予 每 个 类 所 含 的 成 
员 。 每 个 类 别 的 察 类 数量 是 一 个 由 领域 所 决定 的 参数 ， 可 以 用 交叉 验证 来 设 定 。 


76.2 联合 训练 


使 用 无 标签 数据 改善 分 类 性 能 的 另 一 种 情形 是 在 分 类 任务 中 存在 两 种 不 同上 且 独 立 的 观察 点 
之 时 。 这 里 再 次 引用 经 典 的 文件 例子 ， 这 回来 看 网 页 文件 ， 它 的 两 个 观察 点 是 网 页 的 内 容 和 
从 其 他 网 页 到 达 这 个 网 页 的 链接 ( link )。 这 两 点 都 很 有 用 但 却 不 同 : 成 功 的 网 页 搜索 引擎 合 
用 某 种 秘方 来 利用 这 两 个 观察 点 。 能 到 达 另 -- 个 网 页 的 某 个 链接 所 标注 的 文字 为 揭示 另 一 个 
网 页 所 含 内 容 提供 了 线索 ， 也 许 比 揭示 这 个 网 页 本 身 的 内 容 更 多 ， 特 别 是 当 这 个 链接 为 独立 
链接 之 时 。 从 直觉 上 看 ， 被 标 为 my adviser 的 链接 强烈 预示 了 目标 网 页 是 一 个 教职员 工 主页 。 

称 为 联合 训练 (co-training ) 的 想法 正 是 如 此 。 给 定 少量 的 有 标签 实例 ， 首 先 ， 为 每 个 观 
察 点 学 习 … 个 不 同 的 模型 。 在 这 个 例子 中 ， 是 一 个 基于 内 容 的 模型 和 一 个 基于 超 链接 的 模型 。 
然后 分 别 利 用 每 个 模型 来 赋予 无 标签 实例 类 别 。 对 每 个 模型 ， 选 择 一 个 标 为 肯定 实例 且 置 信 
度 最 大 的 实例 ， 和 一 个 标 为 否定 实例 且 置 信 度 最 大 的 实例 ， 将 它们 加 入 到 有 标签 实例 队伍 中 。 
为 做 得 更 好 ， 可 通过 选择 ~-- 种 类 别 实例 的 数量 多 于 另 一 种 类 别 ， 以 维护 有 标签 实例 队伍 中 肯 
定 和 否定 实例 的 比例 。 无 论 哪 种 情形 ， 重 复 整个 过 程 ， 在 经 扩展 的 有 标签 实例 集 上 训练 两 个 
模型 ， 直 到 无 标签 实例 都 用 完 为 止 。 

有 试验 证 明 、 使 用 朴素 贝 叶 斯 作为 学 习 器 ， 这 个 自 引 导 过 程 优 于 应 用 两 个 观察 点 的 所 有 
属性 、 从 有 标签 数据 上 来 学 习 单个 模型 。 它 依据 从 两 个 不 同 角度 来 看 一 个 实例 ， 它 们 是 元 祭 
的 但 又 不 完全 相关 联 。 它 被 提议 用 在 不 同 的 领域 中 ， 从 分 别 使 用 视频 和 音频 在 电视 新 闻 广播 
中 识别 名 人 ， 到 带 有 图 像 、 声 波 定位 仪 和 距离 传感器 的 移动 式 遥 控 装 置 。 观 察 角 度 的 独立 性 
降低 了 两 个 腌 测 一 致 同意 某 个 错误 分 类 标签 的 似 然 。 


76.3 EM 和 联合 训练 


对 于 含有 两 个 真正 独立 的 属性 子 集 的 数据 集 ， 试 验 显 示 ， 如 前 所 述 ， 联 合 训练 的 效果 比 
使 用 EM 策略 更 好 。 而 将 二 者 组 合 起 来 形成 改进 的 联合 训练 法 称 为 co-EM， 能 获得 更 好 的 性 能 
表现 。 联 合 训练 法 训练 出 两 个 代表 不 同 观察 点 的 分 类 器 A 和 B ， 利 用 它们 在 无 标签 的 实例 中 挑 
选 被 预测 为 最 肯定 的 和 最 否定 的 实例 ， 并 往 济 练 队伍 中 添加 这 些 新 实例 ， 新 实例 的 数量 极 少 
而 且 类 别 是 确定 的 。 另 一 方面 ，Co-EM 在 有 标签 的 实例 上 训练 A， 然 后 用 它 根据 类 概率 赋予 
所 有 无 标签 实例 以 类 标签 ; 接着 在 有 标签 实例 以 及 由 A 暂 定 标签 的 无 标签 实例 上 训练 分 类 器 
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B; 然后 (AB) 根据 概率 重新 赋予 所 有 实例 以 类 标签 ， 并 用 于 训练 分 类 器 A; 重复 迭代 过 
程 直 至 分 类 器 收敛 。 这 个 程序 效果 始终 比 联合 训练 法 更 好 ， 是 因为 它 没 有 被 分 类 器 A 和 B 所 生 
成 的 类 标签 所 束缚 ， 而 是 在 每 轮 迭 代 中 重新 估计 它们 的 概率 。 

co-EM 的 适用 范围 如 联合 训练 一 样 ， 仍 然 受 限于 多 种 独立 观察 点 的 要 求 。 但 是 有 试验 证 
明 即 使 不 能 自然 地 将 属性 分 裂 成 独立 的 观察 点 ， 通 过 制造 这 样 的 分 裂 并 使 用 联合 训练 ， 或 者 
更 好 使 用 co-EM 分 裂 数据 ， 也 能 从 中 获 益 。 甚 至 采用 随机 分 裂 时 ， 似 乎 也 能 奏效 ; 策划 分 裂 
使 属性 集 达到 最 大 独立 ， 性 能 肯定 能 获得 提高 。 这 样 做 为 什么 会 有 效 呢 ? 研究 者 们 猜测 ， 这 
些 算法 能 获 成 功 、 部 分 原因 是 分 裂 更 加 强 了 它们 对 准 在 分 类 器 所 做 的 假设 。 

没有 任何 特别 的 理由 要 限定 基本 分 类 器 为 朴素 贝 叶 斯 法 。 支 持 向 量 机 可 能 代表 了 当今 用 
于 文本 分 类 最 为 成 功 的 技术 。 但 是 ， 对 于 EM 迭代 法 ， 分 类 器 必须 用 概率 来 赋予 数据 类 标 ; 还 
必须 能 使 用 经 概率 加 权 的 实例 来 做 训练 。 支 持 向 量 机 很 容易 被 调整 以 适应 这 两 点 。 在 6.5 节 的 
局 部 加 权 线 性 回归 (6.5 节 ) 中 介绍 了 怎样 调整 学 习 算法 来 处 理 加 权 实 例 。 从 支持 向 量 机 中 获 
取 概 率 估计 的 一 种 方法 是 用 一 维 logistic 模 型 来 匹配 输出 ， 正 如 4.6 节 中 所 述 的 在 输出 上 有效 使 
用 logistic 回归 。 在 文本 分 类 中 使 用 co-EM 和 支持 向 量 机 ( SVM ) 分 类 器 获得 了 极 好 的 效果 。 
它 的 性 能 优 于 其 他 版 本 的 SVM ， 而 且 对 于 各 种 比例 的 有 标签 和 无 标签 实例 都 能 运用 自如 。 

联合 训练 和 EM 的 想法 ， 特 别 是 co-EM 将 它们 组 合 起 来 的 观点 ， 是 令 人 感 兴趣 的 、 启 发 式 
的 思考 ， 并 有 惊人 的 潜力 。 但 到 底 是 何 原因 使 它们 如 此 有 效 仍 存 争议 、 还 不 能 被 理解 。 这 些 
技术 是 当前 研究 的 课题 : 还 未 纳入 机 器 学 习 的 主流 而 是 作为 数据 挖掘 的 实践 工具 。 


7.7 补充 读物 


属性 选择 已 经 在 模式 识别 领域 中 被 探索 了 几 十 年 了 。 例 如 反 向 消除 法 是 在 20 世 纪 60 年 代 
初 引入 的 (Marill 和 Green , 19634). Kittler (1978 年 ) 对 用 于 模式 识别 的 属性 选择 算法 进 
行 了 考察 。 最 佳 优 先 搜索 和 遗传 算法 是 标准 的 人 工 智 能 技术 (Winston, 199246, Goldberg, 
19894 ). 

添加 新 属性 会 使 决策 树 学 习 器 性 能 变 差 的 试验 结果 是 由 John 在 1997 年 报告 的 ， 他 对 属性 


选择 进行 了 适当 的 解释 。 找 到 能 独特 地 划分 实例 的 最 小 属性 集 的 思想 方法 是 由 Almuallin 和 


Dietterich (1991 年 ,1992 年 ) 提出 的 ， 并 在 1996 年 由 Liu 和 Setiono 进 行 了 深入 开发 。Kibler、 
Aha (1987 年 ) 以 及 Cardie (1993 年 ) 都 研究 了 用 决策 树 算法 来 为 最 近邻 学 习 确 定 属性 ; 
Holmes 和 Nevill-Manning (19954) 使 用 1R 将 属性 排序 用 于 选择 。Kira 和 Rendell (19924) 
使 用 基于 实例 的 方法 来 选择 属性 产生 -- 种 方法 称 为 递归 消除 属性 靶 (RELIEF)。Gilad- 
Bachrach 等 人 在 2004 年 展示 了 如 何 修改 此 方法 来 更 好 处 理 重复 属性 。 基 于 关联 的 属性 选择 方 
法 是 由 Hall 在 2000 年 开发 的 。 

使 用 包装 的 方法 进行 属性 选择 要 归功 于 John 等 (1994 年 ) 以 及 Kohavi 和 John (1997 年 )。 
Vafaie 和 DeJong (1992 年 ) 以 及 Cherkauer 和 Shavlik (1996 年 ) 将 遗传 算法 应 用 于 包装 结构 
中 。 选 择 性 朴素 贝 叶 斯 学 习 方法 应 归于 Langley 和 Sage (1994 年 )。Guyon 等 (2002 年 ) 展现 
并 评估 了 递归 属性 消除 方法 结合 支持 向 量 机 的 方案 。 竞 赛 搜索 法 是 由 Moore 和 Lee (1994 年 ) 
开发 的 。 

Dougherty 等 (1995 年 ) 简单 地 叙述 了 有 指导 和 无 指导 的 离散 ， 并 将 试验 结果 与 基于 灼 
等 宽 装 箱 和 单 规则 CIR) 方法 进行 了 比较 ， Frank 和 Witten (1999 年 ) 描述 了 使 用 经 离散 的 
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的 离散 方法 包括 MDL 的 停止 条 件 是 由 Fayyad 和 Irani (19934) 开发 的 。 使 用 入 测试 的 由 下 
往 上 的 统计 方法 应 归功 于 Kerber (1992 年 )，Liu 和 Setiono (1997 年 ) 介绍 了 由 此 法 延伸 而 
获 的 一 种 自动 判定 重要 性 水 准 的 方法 。Fulton 等 (1995 年 ) 探索 了 将 动态 规划 应 用 于 离散 ， 
FEE — TAA BRA ORM AL (PRO) 和 一 个 基于 误差 离散 的 线性 边界 。 用 来 说 明 
基于 误差 离散 的 弱点 的 例子 是 根据 Kohavi 和 Sahami (1996 年 ) 改写 的 ， 是 他 们 首先 清楚 地 
发 现 这 个 现象 的 。 

主 分 量 分 析 法 是 一 种 标准 技术 ， 大 多 数 统计 教科 书 中 都 有 介绍 。Fradkin 和 Madigan 
(2003 年 ) 分 析 了 随机 投影 的 性 能 。Witten 等 (1999 年 ) 中 介绍 了 TF x IDF 衡量 尺度 。 

使 用 C4.5 过 滤 训 练 数据 的 试验 是 由 John (1995 年 ) 展示 的 。Brodley 和 Friedl (1996 年 ) 
研究 了 一 个 更 为 保守 的 方法 ， 使 用 几 个 学 习 算 法 生成 一 个 共识 过 滤器 。Rousseeuw 和 Leroy 
(1987 年 ) 介绍 了 统计 回归 中 的 扳 立 点 侦察 ， 包 括 最 小 二 乘 方法 ; 他 们 还 展示 了 图 7-6 的 电话 
数据 。Quinlan (1986 年 ) 发 现 ， 消 除 训练 实例 属性 上 的 千 扰 会 由 于 相似 的 干扰 测试 实例 而 降 
低 分 类 器 的 性 能 ， 特 别 是 干扰 度 较 大 时 。 

组 合 多 个 模型 在 机 器 学 习 研 究 领 域 是 一 个 热门 研究 课题 ， 已 有 很 多 相关 的 出 版 文献 。 术 
RR 〈 即 自 引导 整合 ) 是 由 Breiman (1996 年 ) 提出 的 ， 他 从 理论 角度 、 试 验 角度 对 用 于 
分 类 和 数值 预测 的 装 袋 特 性 都 做 了 研究 。Domingos ( 1999 年 ) 介绍 了 MetaCost 算 法 。 
Dietterich (2000 年 ) 对 随机 化 进行 了 评估 ， 并 将 其 与 装 袋 技术 和 提升 技术 做 了 比较 。Bay 
(1999 年 ) 提议 使 用 随机 化 方法 对 最 近邻 分 类 器 进行 合成 学 习 。Breiman (2001 年 ) 介绍 了 随 
机 森林 方法 。 

Freund 和 Schapire (1996 年 ) 开发 了 AdaBoost.M1 的 提升 算法 ， 并 获得 了 这 个 算法 性 能 
表现 的 理论 边界 。 以 后 ， 他 们 又 应 用 边 差 的 概念 改进 了 这 些 边界 (Freund 和 Schapire，1999 
年 )。Drucker (1997 年 ) 修改 了 AdaBoost.M1 使 其 能 用 于 数值 预测 。LogitBoost 算 法 是 由 
Friedman 等 (2000 年 ) 开发 的 。Friedman (2001 年 ) 介绍 了 如 何 使 提升 在 有 干扰 数据 时 更 
ARR. 

Domingos (19974) 介绍 了 怎样 利用 人 工 训 练 实例 从 一 个 合成 分 类 器 中 获得 易于 说 明 的 
单个 模型 。 贝 叶 斯 选择 树 是 由 Buntine (1992 年 ) 介绍 的 ，Kohavi 和 Kunz (1997 年 ) 将 多 数 
投票 法 和 选择 树 结合 应 用 。Freund 和 Mason (1999 年 ) 引入 了 交替 式 决策 树 ; Holmes 等 
(2002 年 ) 对 多 类 交替 式 决 策 树 进行 了 试验 。Landwehr 等 (2003 年 ) 用 LogitBoost 算 法 开发 了 
logistic 模型 树 。 

堆栈 式 泛 化 是 由 Wolpert (1992 年 ) 初创 的 ， 他 在 神经 网 络 文献 中 提出 这 个 想法 ， 
Breiman (1996 年 ) 将 其 应 用 于 数值 预测 。Ting 和 Witten ( 1997 年 ) 通过 试验 比较 了 不 同 1 层 
模型 ， 结 果 发 现 使 用 简单 的 线性 模型 效果 最 好 ; 他 们 还 证 明了 利用 概率 作为 1 层 数据 的 益处 。 
他 们 还 对 堆栈 和 装 袋 的 组 合 进行 了 探索 。 

使 用 误差 纠正 输出 编码 进行 分 类 的 思想 在 Dietterich 和 Bakiri (1995 年 ) 发 表 后 得 到 了 广 
AVIA HT; Ricci 和 Aha (1998 年 ) 展示 了 怎样 将 此 编码 运用 于 最 近邻 分 类 器 。 

Blum 和 Mitchell ( 1998 年 ) 是 使 用 联合 训练 的 倡导 者 ， 并 为 从 不 同 的 独立 观察 点 使 用 有 标 
签 和 无 标签 数据 开发 了 一 个 理论 模型 。Nigam 和 Ghani (2000 年 ) 分 析 了 联合 训练 的 有 效 性 
和 可 用 性 ， 并 将 其 与 传统 的 使 用 标准 EM 方法 来 填补 残缺 值 联系 起 来 。 他 们 还 介绍 了 co-EM 算 
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k. Nigam (20004) 在 用 于 分 类 的 诊 类 这 节 中 ， 展 示 了 EM 诊 类 算法 是 怎样 利用 无 标签 数 
据 来 改善 由 朴素 贝 叶 斯 法 建立 的 原始 分 类 器 的 。 当 时 ， 联 合 训 练 和 co-EM 主 要 是 应 用 于 一 些 
小 型 的 二 类 问题 ; Ghani (2002 年 ) 使 用 误差 纠正 输出 编码 来 解决 带 有 多 个 类 别 的 多 类 问题 。 
Brefeld 和 Scheffer (2004 年 ) 扩展 了 co-EM 法 ,使 用 支持 向 量 机 而 非 朴素 贝 叶 斯 法 。Seeger 
(2001 年 ) 怀疑 这 些 新 算法 与 传统 算法 相 比 ， 是 否 真 的 能 带 来 一 些 优势 。 








第 8 章 继续 : 扩展 和 应 用 


机 器 学 习 是 从 数据 中 挖掘 知识 的 一 项 新 兴 技 术 ， 许 多 人 开始 认真 地 审视 这 项 技术 。 我 们 
不 想 过 度 吹 腔 ， 我 们 所 了 解 的 机 器 学 习 并 非 是 用 来 干 大 事 的， 比如 未 来 的 自动 机 器 仆 佣 、 关 
于 认 知 的 哲学 迷 题 、 有 关 超 自然 的 自由 意志 的 话题 、 关 于 智慧 从 何 而 来 的 进化 论 或 者 是 神学 
的 问题 、 语 言 学 习 方面 的 辩论 、 关 于 儿童 成 长 方面 的 心理 学 理论 、 或 者 关于 智能 为 何 物 、 又 
是 如 何 工 作 的 认 知 解释 等 。 机 器 学 习 在 我 们 心目 中 要 平凡 得 多 ， 机 器 学 习 是 能 从 数据 中 推断 
出 结构 的 那些 算法 、 以 及 验证 这 些 结构 的 方法 。 这 些 算法 既 不 深奥 也 不 复杂 ， 但 它们 也 不 是 
显而易见 的 ， 或 是 不 重要 的 。 

用 发 展 的 眼光 来 看 ， 最 大 的 挑战 在 于 应 用 。 机 会 伴 拾 句 是 。 哪 里 有 数据 ， 哪 里 就 有 可 以 学 
习 的 东西 。 当 数据 过 多 ， 人 们 自身 的 脑力 无 法 承受 时 ， 学 习 的 手段 就 必须 是 自动 的 。 但 是 灵感 
是 绝 不 可 能 “自动 ”产生 的 ! 应 用 方法 不 可 能 来 自 计 算 机 程序 ， 也 不 可 能 来 自 机 器 学 习 专 家 ， 
或 是 数据 本 身 、 只 能 来 自 和 数据 以 及 问题 起 源 打交道 的 人 。 这 正 是 我 们 编写 本 书 ， 以 及 第 二 部 
分 叙述 的 Weka 系 统 的 目的 所 在 ， 让 那些 非 机 器 学 习 专 家 的 人 们 有 能 力 将 这 些 技术 运用 到 日 常 
工作 中 去 解决 问题 。 思 想 方 法 是 简单 的 ， 算 法 就 在 这 里 ， 其 余 的 就 要 看 读者 自己 了 ! 

当然 ， 这 项 技术 的 发 展 远 没有 完成 。 机 器 学 习 是 一 项 热门 研究 课题 ， 新 的 思想 和 技术 还 
在 不 断 涌现 。 为 了 提供 读者 一 些 有 关 研 究 前 沿 的 范围 和 研究 种 类 ， 我 们 来 关注 -一 下 当今 数据 
挖 据 领 域 的 些 热 门 课题 ， 以 此 来 结束 本 书 的 第 -部 分 。 


8.1 从 大 型 的 数据 集 里 学 习 


当今 工商 企业 和 科研 机 构 中 盛行 使 用 大 型 数据 库 ， 使 得 机 器 学 习 算 法 必须 能 在 大 型 数据 
集 里 工作 。 任何 算法 要 应 用 到 非常 大 的 数据 集 ， 存 在 两 个 关键 问题 : 空间 和 时 间 。 

假设 数据 过 大 ， 无 法 存储 在 主 存储 器 中 。 这 时 如 果 学 习 方 案 采用 递增 模式 ， 在 产生 一 个 
模型 时 ， 每 次 只 处 理 一 个 实例 ， 就 不 会 造成 困难 。 可 以 从 输入 文件 中 读 取 一 个 实例 ， 更 新 模 
型 ， 然 后 继续 读 下 一 个 实例 ， 以 此 类 推 ， 在 主 存储 器 中 永远 无 须 储存 一 个 以 上 的 实例 。- 一 般 
而 言 ， 得 到 的 模型 和 数据 集 相 比 比较 小 ， 可 供 存储 空间 量 不 对 所 形成 的 模型 有 严格 的 限制 。 
朴素 贝 叶 斯 方法 是 这 类 算 靶 的 出 色 的 例子 ; 决策 树 归 纳 以 及 规则 学 习 方案 也 有 使 用 递增 模式 
的 。 不 过 ， 本 书 所 探讨 的 部 分 学 习 方 法 的 递增 算法 尚未 开发 。 其 他 方法 ， 例 如 基本 的 基于 实 
例 的 方法 和 局 部 加 权 回 归 法 在 预测 时 需要 使 用 所 有 的 训练 实例 ， 如 此 一 来 ， 则 要 利用 精细 的 
储存 和 索引 机 制 ， 只 将 数据 集中 使 用 最 频繁 的 部 分 保存 在 存储 器 中 ， 并 且 能 对 文件 中 的 相关 
实例 进行 快速 访问 。 

在 大 型 数据 集 里 应 用 学 习 算法 的 另 一 个 关键 的 方面 是 时 间 。 如 果 学 习 时 间 不 是 与 训练 实 
例 的 数量 成 线性 (或 者 几乎 成 线性 ) 度量 关系 ， 那 么 处 理 非 常 大 的 数据 集 最 终 将 是 不 可 能 的 。 
在 某 些 应 用 中 ， 属 性 数量 是 一 个 关键 因素 ， 只 有 那些 与 属性 数量 成 线性 度量 关系 的 方法 才能 
被 接纳 。 或 者 ， 预 测 时 间 也 可 能 成 为 关键 问题 。 幸 运 的 是 ， 许 多 学 习 算法 在 训练 和 测试 中 度 


(346) 量 都 极其 出 色 ， 例如， 朴素 贝 叶 斯 法 的 训练 时 间 与 实例 数量 和 属性 数量 都 成 线性 关系 。 从 上 
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而 下 的 决策 树 归纳 法 ， 如 6.1 节 中 所 见 ， 训 练 时 间 和 属性 的 数量 成 线性 关系 ， 如 果树 呈现 枝叶 
繁盛 ， 则 与 实例 数量 成 对 数 线性 关系 〈 假 如 设 有 使 用 子 树 提升 ; 如果 用 了 ， 再 要 添加 一 个 对 
数 因素 )。 

如 果 数 据 集 过 大 ， 以 致 某 -种 具体 算法 无 法 应 用 ， 有 三 种 办 法 可 以 使 学 习 变 得 可 能 。 第 

-种 不 太 重 要 ， 即 不 把 学 习 方 案 运 用 到 整个 数据 集中 ， 而 是 仅 在 -个 较 小 的 子 集中 训练 。 当 
然 ， 这 样 采用 -次 取样 (subsampling) 会 造成 信息 遗失 。 不 过 ， 由 于 在 履 盖 到 所 有 的 训练 数 
据 之 前 ， 所 学 到 模型 的 预测 能 力 往往 早已 达到 最 高 点 ， 此 种 损失 或 许可 以 忽略 不 计 。 如 果 是 
这 种 情形 ， 很 容易 得 到 证 实 ， 可 通过 在 一 个 旁 置 测试 集 上 观察 测试 由 不 同 大 小 的 训练 集 上 所 
获 模 型 的 性 能 表现 。 

这 种 行为 模式 称 为 收益 递减 法 则 (law of diminishing returns )， 可 能 会 发 生 是 由 于 学 习 问 
题 简单 ， 因 此 少量 的 训练 数据 足以 学 到 个 精确 的 模型 。 另 -种 可 能 是 学 习 算 法 也 许 无 法 抓 
住 潜在 领域 的 详细 结构 。 在 :个 复杂 领域 中 运用 朴素 贝 叶 斯 法 时 ， 往 往 可 以 观察 到 这 样 的 情 
形 ， 额 外 的 训练 数据 或 许 不 能 改善 模型 的 性 能 表现 ， 却 能 使 决策 树 模 型 的 正确 率 继续 上 升 。 
在 这 种 情况 下 ， 如 果 主 要 目标 是 预测 的 性 能 表现 ， 当 然 应 该 换 用 更 加 复杂 的 学 习 算 法 。 但 要 
注意 过 度 拟 和 ! 不 要 在 训练 数据 上 进行 性 能 的 评估 。 

并 行 化 (parallelization) 是 另 .种 减少 学 习 时 间 复 杂 度 的 方法 。 想 法 是 将 问题 分 裂 成 几 
个 小 部 分 ， 每 个 部 分 用 “个 单独 的 处 理 器 来 解决 ， 然 后 将 结果 合并 。 为 达 此 目的 ， 需 要 建立 
一 个 并 行 化 的 学 习 算 法 。 有 些 算法 天 然 地 适用 于 并 行 化 方法 。 例 如 最 近邻 方法 , 可 以 通过 将 数 
据 分 裂 成 儿 个 部 分 ， 让 每 个 处 理 器 在 它 那 部 分 的 训练 集中 找到 最 近 的 邻居 ， 从 而 轻易 地 在 几 
个 处 理 器 间 进 行 分 配 。 决 策 树 学 习 器 可 以 通过 让 每 个 处 理 器 建立 完整 树 的 -一 个 子 树 而 进行 并 
行 化 。 装 袋 和 堆栈 (虽然 提升 法 不 是 ) 是 天 然 的 并 行 算法 。 然 而 ， 平 行 化 只 能 做 部 分 补救 ， 
因为 处 理 器 的 数量 是 固定 的 ， 无 法 改善 算法 的 渐 近 时 间 复 杂 度 。 

在 大 型 数据 集 上 应 用 任何 算法 的 -种 简单 方法 是 将 数据 分 裂 成 有 限 大 小 的 数据 块 
(chunk )， 在 每 个 数据 块 上 学 习 模型 ， 再 利用 投票 或 取 平 均值 的 方法 将 结果 组 合 起 来 。 无 论 是 
并 行 的 类 似 装 袋 的 方法 或 是 有 序 的 类 似 提升 的 方法 都 可 以 用 于 此 目的 。 提 升 法 具有 的 优势 可 
以 根据 先前 数据 块 上 学 习 所 获 的 分 类 器 来 对 新 的 数据 块 进行 加 权 ， 从 而 在 各 个 数据 块 之 间 传 
递 知识 。 在 两 种 情况 下 ， 存 储 耗 费 按照 数据 集 的 大 小 成 线性 增长 ; 因此 对 于 非常 大 的 数据 集 
来 说 进行 其 种 形式 的 修剪 是 必要 的 。 这 可 以 通过 将 一 些 验 证 数据 放置 一 边 ， 只 往 分 类 器 委员 
会 中 添加 能 使 委员 会 在 验证 集 上 的 性 能 获得 提高 的 新 模型 。 验证 集 也 可 用 于 确定 合适 的 数据 
块 尺寸 ， 这 可 采用 几 种 不 同 大 小 的 数据 块 ， 平 行 地 运行 算法 ， 并 且 关 注 它们 在 验证 集 上 的 性 
能 表现 。 

要 使 学 习 方案 能 够 对 付 非常 大 的 数据 集 ， 最 好 的 但 同时 也 最 具有 挑战 性 的 方法 是 建立 计 
算 复杂 度 较 低 的 新 算法 。 在 有 些 情况 下 ， 要 获得 低 复杂 度 的 算法 是 不 可 能 的 。 处 理 数值 属性 
的 决策 树 学 习 器 就 属于 这 类 情况 。 它们 的 浙 近 时 间 复 杂 度 受 控 于 数值 属性 值 的 排序 过 程 ， 对 
于 任何 给 定 的 数据 集 ， 至 少 要 进行 … 次 这 样 的 数据 处 理 过 程 。 然 而 ， 有 了 时 可 以 利用 随机 算法 
以 获得 接近 正确 的 解决 方法 ， 而 所 需 的 时 间 耗 费 却 少 得 多 。 

背景 知识 可 以 大 大 减少 学 习 算法 必需 处 理 的 数据 量 。 将 背景 知识 纳入 考虑 范畴 之 后 ， 大 
型 数据 集 的 绝 大 多 数 属 性 可 能 就 显得 不 相关 了 ， 这 取决 于 哪个 属性 是 类 属性 。 通 常 ， 将 要 交 
给 学 习 方 案 的 数据 预先 进行 一 番 仔 细 处 理 是 值得 的 ， 并 且 将 手头 已 有 的 任何 关于 学 习 问 题 的 
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信息 加 以 最 大 的 利用 。 如 果 背 景 知识 不 充足 ， 利 用 在 7.1 节 中 讨论 的 属性 过 滤 算 法 常常 可 以 大 
大 减少 数据 量 ， 也 许 是 以 预测 性 能 表现 的 稍 许 损失 为 代价 。 其 中 有 些 方法 ， 例 如， 用 决策 树 
或 IR 学 习 方 案 进 行 属性 选择 与 属性 的 数量 成 线性 关系 。 

想 给 读者 感觉 一 下 在 普通 的 微机 上 直接 应 用 机 器 学 习 算 法 所 能 处 理 的 数据 总 量 ， 将 决策 
树 学 习 器 J4.8 运 行 在 一 个 拥有 600 000 个 实例 的 数据 集 上 ， 它 有 54 个 属性 (10 个 数值 型 ，44 个 
二 值 属性 ) 以 及 一 个 含 7 个 值 的 类 。 使 用 一 台 带 有 奔腾 4 中 央 处 理 器 、2.8GHz 时 钟 、 带 “即时 
编译 器 ”的 Java 虚 拟 机 。 载 人 数据 文件 、 用 减少 误差 修剪 法 (reduced-error pruning) 建立 决 
策 树 并 对 所 有 训练 实例 进行 分 类 ， 用 了 40 分 钟 时 间 。 这 棵 决策 树 有 20 000 个 节点 。 这 个 算法 
实现 程序 是 用 Java 编 写 的 ， 而 执行 一 个 Java 程 序 常常 要 比 执行 一 个 相应 的 用 C 语 言 编 写 的 程序 
慢 几 倍 ， 这 是 由 于 Java 字 节 码 必须 先 翻 译 成 机 器 编码 方 可 实施 (根据 我 们 的 经 验 ， 如 果 虚 拟 
机 采用 即时 编译 器 ， 这 个 差别 常常 是 三 到 五 倍 )。 

现今 有 的 数据 集 绝 对 称 的 上 大 型 (massive) 这 个 形容 词 。 比 如 ， 天 体 物 理 、 核 物理 、 土 
壤 学 以 及 微生物 学 方面 的 科学 数据 集 往往 以 成 百 个 十 亿 字 节 计 ， 其 至 是 万 亿 字 节 。 包 容 金 融 
交易 记录 的 数据 集 同样 如 此 。 将 机 器 学 习 的 标准 程序 完整 地 应 用 到 这 类 数据 集中 是 一 个 非常 
具有 挑战 性 的 课题 。 

8.2 融合 领域 知识 

本 书 自始至终 强调 在 进行 实际 数据 挖掘 工作 时 ， 十 分 重要 的 是 了 解数 据 。 专 业 领 域 的 知 
识 对 于 (挖掘 ) 成 功 是 绝对 必要 的 。 数 据 的 数据 常 称 为 元 数据 (metadata) ， 机 器 学 习 的 一 个 
前 沿 就 是 改进 学 习 方 案 ， 使 学 习 方 案 能 将 元 数据 以 有 用 的 方式 纳入 考虑 范围 。 

无 须 寻 砚 如 何 运用 元 数据 的 实例 。 在 第 2 章 中 ， 我 们 将 属性 分 为 名 词性 属性 和 数值 属性 两 
大 类 。 我 们 也 注意 到 或 许 有 更 好 的 分 类 定义 。 假 如 属性 为 数值 的 ， 意 味 着 存在 着 一 种 序列 ， 
但 零点 的 存在 时 有 时 无 (对 于 时 间 区 间 存 在 ， 对 于 日 期 则 不 存在 )。 序 列 还 可 能 是 非 标准 的 ， 
角度 的 序列 不 同 于 通常 的 整数 序列 ， 因 为 360" 等 同 于 0。 ，180" 和 - 180" 乃 至 等 同 900*。 离 散 
方案 假设 正常 的 线性 排序 ， 如 同 用 于 数值 属性 的 学 习 方案 ， 但 将 其 扩展 到 循环 排序 也 属 常规 
问题 。 分 类 数据 也 可 能 被 排列 。 想 象 一 下 如 果 没 有 传统 的 字母 顺序 ， 日 常生 活 将 会 是 多 么 困 
E (看 一 下 香港 的 电话 号 码 本 ， 就 会 知道 这 是 一 个 多 么 有 趣 而 非 同 小 可 的 问题 了 ! )。 日 常生 
活 的 节奏 反映 在 循环 排序 中 : 星期 中 的 天 数 ， 年 份 中 的 月 份 数 。 更 复杂 的 事务 中 有 许多 其 他 
类 型 的 排序 , 辟 如 在 子 集 上 的 局 部 排序 ， 子 集 A 可 能 包括 子 集 B， 或 者 子 集 B 包 括 子 集 A， 或 者 
谁 也 不 包括 谁 。 扩 展 普通 的 学 习 方 案 ， 能 将 此 类 信息 以 令 人 满意 的 常规 方式 来 考虑 ， 还 有 待 
进一步 的 研究 。 

元 数据 经 常 包含 了 属性 之 间 的 关系 。 明 显 地 有 三 种 关系 : 语义 关系 ， 因 果 关 系 及 函数 关 
系 。 两 个 属性 间 的 语义 关系 意味 着 如 果 第 一 个 属性 被 包括 在 某 一 条 规则 中 ， 那 么 第 二 个 属性 
也 应 该 被 包括 在 其 中 。 如 此 说 来 ， 将 其 作为 一 个 前 提 ， 就 是 这 两 个 属性 只 有 在 一 起 才 有 音义。 
例如 ， 在 我 们 分 析 过 的 农业 数据 中 ， 称 为 产 奶 量 的 属性 衡量 一 头 奶牛 产 多 少 牛 奶 ， 调 查 的 目 
的 意味 着 这 个 属性 与 其 他 三 个 属性 存在 语义 关系 : 奶牛 标识 (cow-identifier)， 牛 群 标识 
(herd-identifier) 和 牧场 主 标识 (farmer-identifier ) 。 换 句 话说 ， 产 奶 量 的 具体 值 只 有 在 综合 
考虑 这 些 情况 的 前 提 下 才能 被 理解 ， 这 包括 产 奶 的 那 头 奶牛 ， 这 头 奶牛 进一步 联系 到 某 个 已 
知 牧场 主 所 拥有 的 特定 牛 群 。 语 义 关系 当然 是 取决 于 具体 问题 的 ， 它 们 不 仅仅 取决 于 数据 集 ， 
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也 取决 于 你 要 用 数据 集 去 干什么 。 

当 一 个 属性 引发 另 一 个 属性 时 ， 因 果 关 系 就 产生 了 。 在 一 个 试图 预测 某 个 属性 的 系统 中 ， 
而 这 个 属性 是 由 另 一 个 属性 引起 的 ， 我 们 知道 这 另 一 个 属性 必须 被 包括 进来 预测 才 有 意义 。 
例如 ， 上 面 所 述 的 农业 数据 中 存在 着 一 条 从 牧场 主 标识 、 牛 群 标识 到 奶牛 标识 的 链条 ， 这 根 
链条 继续 延伸 到 那些 经 过 度量 的 属性 ， 如 产 奶 量 ， 一 直到 记录 了 牧场 主 是 否 拥有 或 出 售 了 那 
头 奶牛 的 那个 属性 。 学 到 的 规则 应 该 能 识别 这 条 链 上 的 依存 关系 。 

销 数 依存 关系 存在 于 许多 数据 库 中 ， 为 了 对 数据 库 中 的 关系 进行 正常 化 ， 数 据 库 的 建立 
者 试图 识别 出 它们 。 当 从 数据 中 学 习 时 ， 某 个 属性 对 另 一 个 属性 的 函数 依存 关系 的 重要 性 在 
于 ， 假 如 后 者 在 规则 中 已 被 使 用 了 ， 就 没有 必要 再 考虑 前 者 了 。 学 习 方案 经 常 重新 发 现 这 个 
已 被 知晓 的 函数 依存 关系 。 这 不 仅 是 在 产生 无 意义 的 ， 或 是 同 义 反复 的 规则 ， 而 且 一 些 更 令 
人 感 兴趣 的 模式 也 许 会 被 函数 关系 所 模糊 。 然 而 ， 人 们 在 自动 数据 库 设计 上 已 经 做 了 许多 工 
作 来 解决 从 样本 查询 导出 功能 依存 的 问题 ， 所 开发 的 方法 应 该 对 于 清除 学 习 算法 所 产生 的 同 
义 反 复 的 规则 是 有 用 的 。 

当 使 用 我 们 已 经 遇 到 过 的 任何 学 习 算 法 来 做 归纳 时 ， 将 这 些 元 数据 或 者 先 验 领 域 知识 纳 
和 考虑 范围 ， 看 上 去 并 不 构成 任何 大 的 技术 上 的 挑战 。 唯 一 真正 的 问题 而 且 是 个 大 问题 ， 是 
如 何 将 元 数据 以 一 种 概要 的 、 容 易 理 解 的 方法 来 表达 ， 使 得 人 们 能 生成 这 些 元 数据 ， 并 为 算 
法 所 使 用 。 

使 用 如 同 机 器 学 习 方 靶 所 生成 的 表示 法 来 表达 元 数据 知识 是 有 吸引 力 的 。 我 们 将 重点 放 
在 作为 这 项 工作 标准 的 规则 上 。 这 些 指明 元 数据 的 规则 与 该 领域 的 先 验 知识 相关 。 给 出 训练 
样本 ， 可 以 用 以 前 介绍 过 的 某 个 规则 归纳 方案 来 获得 其 他 的 规则 。 通 过 这 种 方法 ， 这 个 系统 
也 许可 以 将 “经 验 ”( 来 自 样本 ) 和 “理论 ”( 来 自 领域 知识 ) 结合 起 来 。 它 还 可 以 确认 和 修 
正 这 些 建立 在 实践 证 据 上 并 已 被 结合 进来 的 知识 。 简 单 地 说 ， 使 用 者 告诉 系统 他 或 她 所 知道 
的 ， 给 它 一 些 样本 ， 系 统 就 能 自己 找 出 其 余 的 ! 

为 了 有 效 灵 活 地 利用 以 规则 表达 的 先 验 知 识 ， 系 统 必 须 能 执行 逻辑 推导 。 不 然 ， 知 识 必 
须 精 确 地 以 适当 的 方式 表达 以 使 学 习 算法 能 利用 它 ， 这 在 实际 运用 中 可 能 过 于 强求 了 。 考 虚 
有 因果 关系 的 元 数据 : 如 果 属 性 A 引 发 B 而 属性 B 引 发 C， 那 么 我 们 希望 系统 能 演绎 出 A 引 发 C， 
而 不 是 明确 地 陈述 事实 。 虽 说 在 这 个 简单 的 例子 中 明确 阐述 这 个 新 的 (A 引 发 C 一 一 译 者 注 ) 
事实 不 会 有 什么 问题 ， 但 在 实际 中 ， 由 于 元 数据 的 广泛 ， 希 望 系统 使 用 者 能 表达 出 他 们 先 验 
知识 的 所 有 逻辑 后 果 是 不 现实 的 。 

组 合 从 事先 确定 的 领域 知识 中 演绎 出 的 结果 以 及 从 训练 样本 上 所 获 的 归纳 结果 ， 看 上 去 是 
元 数据 的 一 个 灵活 的 容纳 方式 。 在 一 种 极端 情况 下 ， 当 样本 缺乏 (或 不 存在 ) 时 ， 演 绎 是 -种 
主要 (或 唯一 ) 的 产生 新 的 规则 的 方式 。 在 另 一 种 极端 情况 下 ， 当 样本 丰富 而 元 数据 缺乏 (或 
不 存在 ) 时 ， 本 书 叙 述 的 标准 机 器 学 习 技术 就 起 作用 了 。 实 际 情况 介 于 这 两 种 情况 之 间 。 

这 是 一 个 引 人 注 目的 现象 ， 在 3.6 节 中 提 到 的 归纳 逻辑 编程 法 提供 了 一 种 使 用 正式 的 逻辑 
语言 的 陈述 来 清楚 地 阐明 领域 知识 的 一 般 方 法 。 但 是 ， 目 前 的 逻辑 编程 方法 在 实践 环境 里 存 
在 严重 的 缺陷 。 它 们 较为 脆弱 缺乏 活力 ， 而 且 计算 量 过 大 ， 几 乎 完全 不 可 能 运用 于 任何 实际 
大 小 的 数据 集中 。 也 许 这 源 自 它们 使 用 一 阶 逻 辑 (first-order logic) HEK, RBBB, EM 
许 将 变量 引入 规则 中 。 我 们 所 见 过 的 机 器 学 习 方法 的 输入 和 输出 以 属性 和 常量 来 表示 ， 使 用 


命题 逻辑 而 没有 变量 ， 极 大 地 减少 了 搜索 空间 并 避免 了 循环 工作 和 终止 的 困难 。 有 人 热 望 采 
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用 简化 的 推理 系统 米 避 免 完 整 逻辑 编程 中 的 脆弱 和 计算 无 法 实现 这 两 个 问题 ， 另 - 些 人 坚信 
6.7 布 中 介绍 过 的 贝 叶 斯 网 络 的 一 般 机 构 ， 在 这 网 络 中 因果 限制 可 以 在 网 络 的 最 初 结构 中 表达 
出 来 ， 并 自动 假设 和 评估 隐藏 的 变量 。 观 察 一 下 允许 表示 不 同 种 类 的 领域 知识 的 系统 是 否 会 
得 到 广泛 应 用 是 非常 有 意思 的 。 


8.3 文本 和 网 络 挖掘 


数据 挖掘 是 在 数据 中 寻找 模 式 . 类 似 地 ， 文 本 挖掘 就 是 在 文本 中 时 找 模 起 ， 它 是 .个 分 
析 文 本 、 并 从 中 提炼 出 有 助 于 某 个 特定 用 途 的 信息 的 过 程 。 与 本 书 里 .- 直 寺 论 的 数据 相 比 ， 
文本 是 无 结构 的 、 没 有 - -定形 态 的 、 并 且 是 难以 处 理 的 。 毋 庸 置 沁 ， 在 当代 西方 文化 里 ， 文 
本 是 交换 信息 的 最 有 效 的 工具。 从 其 中 提炼 有 用 信息 的 动机 是 极 有 吸引 力 的， 即便 只 是 部 分 
成 功 。 

文本 挖掘 和 数据 挖掘 胡 面 的 相似 掩藏 了 它们 实际 的 不 同 。 在 第 1 章 中 将 数据 挖掘 定义 为 从 

351) 数据 中 将 上 暗 辣 的 、 以 前 所 信 知 道 的 、 但 却 是 流 在 有 用 的 信息 提炼 出 来 。 在 文本 挖 扬中 ， 所 要 

提取 的 信息 却 是 清楚 明了 地 陈述 在 文本 中 的 。 一 点 都 没有 隐藏 ， 大 多 数 作者 都 是 经 过 苦 基 挣 
扎 而 要 确保 清楚 、 不 含糊 地 表达 他 们 自己 的 思想 。 从 人 的 思维 角度 来 看 , “以 前 所 不 知道 的 ” 
的 含义 只 能 是 由 于 时 间 限 制 使 人 无 法 靠 他 们 自己 来 阅读 文本 ,问题 在 于 信息 传达 的 方式 无 革 
适用 于 自动 处 理 、 文 本 控 括 试图 将 信息 以 一 种 适合 计算 机 ， 或 是 没有 时 间 阅 读 整 个 文本 的 人 
群 来 消化 理解 的 形式 呈现 出 来 。 

对 数据 挖 拥 和 文本 挖掘 的 个 其 同 要 求 是 所 提炼 出 的 信息 必须 是 潜 作 有 用 的 。- -方面 ， 
这 意味 着 可 以 有 所 作为 (actionable )， 可 以 为 某 些 自动 采取 的 行动 提供 -个 基础 。 从 数据 控 
据 的 角度 上 看 、 这 个 注解 可 以 用 -个 相对 独立 于 领域 知识 的 方式 来 表达 : 可 以 有 所 作为 的 模 
式 就 是 那些 能 对 相同 来 源 的 新 数据 做 出 并 非 无 关 紧 要 的 预测 的 模式 。 可 以 用 成 功 与 失败 的 累 
计数 来 衡量 性 能 、 可 以 应 用 统计 技术 在 同样 的 问题 上 比较 不 同 的 数据 挖 据 方 法 ， 等 等 。 然 而 ， 
在 许多 文本 挖掘 问 题 上、 要 想 以 独立 于 手头 某 个 具体 领域 的 方式 ， 来 为 “可 以 有 所 作为 ”做 
-个 定义 是 极其 困难 的 。 这 使 得 要 寻找 -个 公正 、 客 观 的 衡量 成 功 度 的 方法 变 得 困难 重重 。 

正如 本 书 所 强调 的 .“ 潜 在 有 用 ”在 实际 数据 挖 据 中 常常 有 另外 -种 解释 : 成 功 的 关键 在 
于 所 提炼 出 的 信息 必须 是 可 以 理解 的 ， 即 可 以 帮助 诠释 数据 的 。 这 对 于 最 终结 果 是 用 于 被 人 
脑 理 解 而 非 (或 者 同时 ) 用 于 自动 操作 都 是 必须 的 。 这 条 标准 不 那么 适用 于 文本 挖掘 ， 因 为 
和 数据 控 据 不 同 ，( 文本 挖 据 的 ) 输入 本 身 是 可 以 理解 的 。 右 着 可 以 理解 的 输出 的 文本 挖掘 等 
同 于 对 一 个 大 文本 的 重要 部 分 所 做 的 总 结 . 即 文本 归纳 (text summarization). 

我 们 已 经 遇 到 过 -个 重要 的 文本 挖掘 问题 ， 文 件 分 类 . 即 每 个 实例 代表 -个 文件 而 实例 
的 类 是 文件 的 主题 。 文 件 的 性 质 是 由 文件 中 出 现 的 词汇 所 决定 的 。 每 一 个 单词 的 出 现 或 失踪 
都 可 以 看 作 是 一 个 布尔 属性 ， 或 者 文件 可 以 当 作 - -个 词汇 包 而 非 词 汇集 ， 词 汇 包 将 单词 出 现 
的 频率 纳入 考虑 。 在 4.2 节 、 学 习 如 何 扩展 贝 叶 斯 网 络 成 词汇 包 代表 ， 从 而 产生 算法 的 多 项 式 
版 本 。 

不 同 单词 的 数量 当然 是 极其 众多 的 ， 它 们 中 的 大 多 数 对 于 文件 分 类 都 不 是 很 有 用 的 。 这 
是 一 个 经 典 的 属性 选择 问题 。 有 些 词 ， 例 如 功能 词汇 常常 称 为 停止 词 (stopwords)， 可 被 先 验 
消除 ， 这 些 词 虽说 出 现 频繁 但 它们 的 总 数 并 不 多 。 其 他 单词 出 现 次 数 过 于 稀少 ， 似 乎 也 不 会 

[352] 对 分 类 有 用 。 莞 雇 的 是 ， 单 词 出 现 几率 不 频繁 是 普遍 现象 ，-… 般 文件 或 文集 中 近 一 半 的 词 只 
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中 所 述 的 方法 来 进行 更 深入 的 属性 选择 。 另 … :个 问题 是 单词 包 (或 单词 组 ) 模型 忽略 了 单词 
次 序 和 上 下 文 效 果 。 有 效果 很 好 的 例子 通过 侦察 出 通用 词组 并 将 其 看 作 单 独 个 体 来 处 理 。 

文件 分 类 是 有 指导 的 学 习 、 类 别 是 已 知 的 ， 每 个 训练 文件 都 事先 赋予 了 类 别 。 无 指导 的 
问题 版 本 称 为 文件 察 类 。 这 时 类 不 是 事先 确定 的 ， 但 寻找 出 的 是 局 类 的 文件 。 文 件 聚 类 可 以 
帮助 信息 检索 ， 它 在 相似 的 文件 之 间 建 立 联系 ，-… 旦 其 中 的 一 个 文件 被 认定 和 所 查询 的 相关 
时 ， 相 关 的 文件 便 依 次 被 检索 出 来 。 

文件 分 类 的 应 用 是 相当 多 的 。 一 个 相对 较 容 易 的 分 类 任务 语言 识别 (language 
identification) 为 国际 文件 库 提 供 了 -个 重要 的 元 数据 。-- 个 简单 而 语言 识别 效果 不 错 的 表达 
方式 是 ， 由 文件 中 出 现 的 n-grams， 或 者 n 个 连续 的 字母 序列 所 构成 的 文件 轮廓 (profiles) 来 
为 每 个 文件 定性 。 出 现 次 数 最 为 频繁 的 300 个 字母 序列 或 称 na-grams 是 和 这 种 语言 密切 相关 的 。 
一 个 更 富 挑战 性 的 应 用 是 作者 归属 (author ship ascription) 问题 ， 应 用 于 当 一 个 文件 的 作者 
不 确定 ， 必 须 从 文本 中 来 猜测 时 。 这 里 起 作用 的 是 停止 词 ， 而 非 内 容 词 汇 ， 因 为 停止 词 的 分 
布 取决 于 作者 而 与 主题 无 关 。 第 汪 类 问题 是 从 -- 个 受 控 的 可 能 词组 的 词汇 表 里 向 文件 赋予 关 
键 词 组 (assignment of key phrases)， 给 定 大 量 加 了 标签 的 训练 文件 ， 标 签 也 源 自 词汇 表 。 

另 -类 常见 的 文本 挖掘 问题 是 元 数据 提炼 (metadata extraction ) 。 在 前 面 元 数据 称 为 数据 
的 数据 ， 在 文本 领域 里 这 个 术语 - 般 是 指 作 品 的 显著 特征 ， 例 如 它 的 作者 、 题 目 、 主 题 分 类 、 
课题 名 称 以 及 关键 词 。 元 数据 是 种 高 度 结构 化 的 ( 因此 也 是 可 以 有 所 作为 的 ) 文件 归纳 。 
元 数据 这 个 概念 常常 被 扩展 ， 可 以 包含 代表 世界 上 的 事物 或 “实体 ”的 单词 或 词组 ， 这 便 产 
生 了 实体 提炼 (entity extraction) 这 个 术语 。 普 通 的 文件 中 充满 了 这 类 术语 ， 如 电话 号 码 、 
传真 号 码 、 街 道 叶 码 、 电 子 邮件 地 址 、 电子 邮件 签名 、 文 章 概要 、 内 容 目 录 、 索 引文 件 清 单 、 
表格 、 图 形 、 标 题 、 会 议 声明 、 网 址 以 及 其 他 许 许多 多 。 此 外 ， 还 有 数不胜数 的 特定 领域 的 
实体 、 例 如 国际 标准 书号 (ISBN )、 股 票 代码 、 化 学 结构 式 以 及 数学 方程 等 。 这 些 术语 当 作 
是 词汇 表 中 的 单独 词汇 项 ， 如 果 它 们 能 被 识别 出 来 ， 许 多 文件 处 理工 作 可 以 大 大 地 改进 。 它 
们 对 寺 文 件 搜索 、 内 部 链接 、 以 及 在 文件 之 间 的 互相 索引 工作 上 都 有 帮助 。 

文本 类 的 实体 是 如 何 被 识别 的 呢 ? 机 械 的 学 习 方法 ， 即 查 字 典 ， 固 然 是 一 个 办 法 ， 特 别 
是 在 手头 有 现成 的 资料 ，、 如 人 名 或 组 织 清单 、 来 自 地 名 字典 的 地 址 信息 、 缩 简写 字典 。 另 一 
个 办 法 是 利用 人 名 和 简称 的 大 写 和 标点 符号 模式 ; 称谓 (kE Ms), JER Or) 以 及 贵族 的 
HIS (von); 罕见 外 国人 名 的 语言 统计 等 等 。 对 于 人 工 结构 ， 如 信息 位 置 的 表示 方法 (URL ) 
可 以 用 正规 统 -- 的 表达 式 来 满足 ; 可 以 记录 下 清楚 的 语法 来 识别 日 期 和 金钱 数量 。 即 便 是 最 
简单 的 任务 也 是 提供 了 学 习 如 何 应 付 实际 生活 中 千变万化 的 文件 的 机 会 。 举 个 例 了 来 说 ， 还 
有 什么 比 查询 表 中 的 名 字 更 为 简单 的 任务 ? 但 是 利比亚 领导 人 卡 扎 非 的 名 字 在 国会 图 书馆 所 
收集 到 的 文件 中 居然 有 47 种 不 同 的 表达 形式 ! 

许多 篇 幅 短 小 的 文件 对 某 个 特定 的 主题 或 者 事件 进行 描述 ， 将 多 个 实体 组 合成 更 高 级 别 
的 合成 体 来 代表 文件 的 完整 内 容 。 识 别 合成 体 结构 的 任务 称 为 信息 芋 取 (information 
extraction ) ， 这 个 合成 结构 经 常 可 以 表示 为 含有 许多 村 的 模版 ， 每 个 槽 里 填 有 单条 结构 信息 。 
一 旦 实体 被 识别 出 来 后 ， 文 本 被 解析 以 决定 实体 之 间 的 关系 。 典 型 的 葵 取 问题 要 求 寻找 预先 
决定 的 一 组 命题 的 预测 结构 。 这 些 通常 是 简单 的 解析 技术 , 璧 如 有 限 状 态 语法 (finite-state 
grammar) 就 能 捕获 了， 虽然 由 于 不 明确 的 代词 、 介 词 短 语 以 及 其 他 一 些 修饰 语 可 能 使 情况 变 
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得 复杂 一 些 。 机 器 学 习 技 术 也 用 于 信息 人 萃取， 寻找 提 取 模 板 槽 内 填充 内 容 的 规则 。 这 些 规 则 
也 许 是 以 模式 -行为 (pattern-action ) 的 形式 存在 ， 模 式 表 达 了 对 填充 物 以 及 上 下 文中 词汇 的 
限制 条 件 。 这 些 限制 条 件 可 能 关系 到 词汇 本 身 、 它 们 的 词性 标签 以 及 它们 的 语义 类 别 。 

将 信息 芋 取 再 深入 一 步 ， 被 提取 的 信息 可 以 在 接 下 来 的 步 又 中 用 来 学 习 规则 ， 不 是 关于 
如 何 提取 信息 的 规则 ， 而 是 为 文本 本 身 的 内 容 定性 的 规则 。 这 些 规则 可 能 会 从 文本 的 其 余部 
分 中 来 预测 某 个 梢 中 的 填充 内 容 。 在 那些 严格 受 限 的 情况 中 ， 例 如 在 互联 网 上 张贴 与 计算 机 
相关 的 职位 ， 根 据 规则 判定 的 质量 ， 建 立 在 少量 人 工 组 建 的 训练 样本 基础 上 的 信息 萃取 能 与 
完全 由 人 工 组 建 的 数据 库 抗衡 。 

国际 互联 网 是 一 个 文本 的 大 型 储藏 室 。 由 于 它 包 含 了 明确 的 结构 ， 几 乎 全 部 与 普通 的 
“简单 ”文本 不 同 。 有 些 结构 属 内 部 结构 ， 标 明了 文件 的 组 织 结构 或 格式 ; 其 他 则 属 外 部 结构 ， 
定义 了 文件 之 间 的 明确 的 超 文 本 链接 。 这 些 信 息 资源 为 网 络 文件 挖掘 提供 了 额外 的 支持 。 网 
络 挖 括 (web mining) 与 文本 挖掘 类 似 ， 只 是 还 拥有 额外 信息 所 带 来 的 优势 ， 经 常 可 以 利用 
标题 目录 和 其 他 网 络 上 的 信息 来 改善 结果 。 

包含 关联 数据 的 互联 网 资源 ， 如 电话 号 籍 或 产品 目录 使 用 超 文本 结构 语言 (HTML) 格 
式 命 令 向 网 络 用 户 清楚 地 展示 它们 所 包含 的 信息 。 然 而 ， 要 从 这 种 资源 里 自动 地 将 信息 提取 
出 来 是 相当 困难 的 。 为 达 此 目的 ， 现 有 的 软件 系统 使 用 称 为 包装 器 (wrappers) 的 简单 分 析 
模块 来 分 析 网 页 的 结构 并 提取 所 需 的 信息 。 如 果 手 头 有 编写 好 的 包装 器 , 这 就 成 了 普通 的 文本 
控 握 问题 了， 因为 信息 可 以 从 固定 的 、 预 定 结构 的 网 页 中 ， 使 用 算法 被 提炼 出 来 。 但 是 网 络 
很 少 遵 守 规 则 。 它 们 的 结构 是 多 变 的 ， 网 站 也 在 发 展 。 在 人 看 来 并 不 显著 的 错误 会 使 自动 提 
炼 程序 完全 错误 。 当 变化 发 生 时 ， 人 工 调 整 包装 是 一 件 令 人 痛苦 的 事情 ， 需 要 投入 思考 当前 
程序 并 对 其 进行 修补 而 又 不 能 引起 其 他 地 方 遭受 破坏 。 

现在 来 看 包装 归纳 (wrapper induction)， 自 动 从 实例 中 学 习 包 装 器 。 输 入 是 一 个 网 页 的 
训练 集 ， 带 有 元 组 、 元 组 代表 从 每 个 网 页 上 提取 出 的 一 系列 信息 。 输 出 是 一 系列 规则 ， 这 些 
规则 是 通过 分 析 网 页 来 提炼 元 组 的 。 例 如 ， 它 也 许 会 寻找 某 些 网 页 设计 者 用 于 分 隔 关键 信息 
项 目的 HTML 分 隔 符 ， 如 分 段 符 (<p>)、 输 入 序列 符 (<li>) 或 粗 体 符 (<b>)， 并 学 习 显示 
信息 的 序列 。 完 成 这 项 工作 可 通过 对 所 有 分 隔 符 选择 进行 迭代 循环 ， 当 遇 到 统一 的 包装 即 停 
止 。 然 后 识别 只 是 根据 最 少 的 提示 ， 对 输入 中 无 关 文 字 和 记号 做 一 些 防御 。 或 者 ， 也 可 以 按 
照 5.9 节 最 后 所 提 的 伊 壁 鸠 鲁 建 议 来 寻找 一 个 强壮 的 包装 器 , 采纳 多 种 提示 以 备 意外 变化 。 自 
动 包装 归纳 的 一 大 优点 是 ， 当 错误 由 于 格式 变化 而 引起 时 ， 只 要 简单 地 将 它们 添加 到 训练 数 
据 中 ， 再 重新 归纳 一 个 将 其 考虑 进去 的 新 包装 。 包 装 归 纳 减 少 了 当 出 现 小 变化 时 识别 中 存在 
的 问题 ， 并 使 结构 发 生根 本 变化 时 ， 产 生 新 的 提炼 规则 容易 多 了 。 

一 种 称 为 语义 网 络 (semantic Web) 的 新 发 展 试图 能 让 人 们 以 一 种 清楚 呈现 信息 结构 和 语 
义 的 方式 来 公布 信息 ， 以 便 信息 能 够 被 再 利用 而 不 只 是 用 于 读 取 。 这 会 使 包装 归纳 变 得 多 余 。 
但 是 ， 如 果 使 用 语义 网 络 所 要 求 的 人 工 结构 不 提 及 遗传 下 来 的 大 量 篇 幅 的 页 面 内 容 ， 很 可 能 
会 使 对 自动 信息 结构 归纳 的 要 求 增加 。 

文本 挖 杨 ， 包 括 网 络 挖 据 作 为 一 项 新 兴 技 术 ， 由 于 它 的 新 颖 和 内 在 的 困难 ， 还 处 在 一 种 
不 稳定 的 状态 ， 也 许 和 机 器 学 习 在 20 世 纪 80 年 代 中 期 的 状态 非常 类 似 。 它 究竟 涵盖 哪些 问题 
还 没有 达成 真正 共识 。 广 而 言 之 ， 所 有 自然 语言 处 理 都 处 在 文本 挖 拥 的 范围 之 内 。 由 于 文本 
控 握 任务 对 于 所 考虑 的 具体 文本 高 度 敏感 ， 通 常 很 难 提供 一 种 普遍 适用 、 有 意义 的 评估 方法 。 
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自动 文本 控 所 技术 在 能 超越 人 类 的 这 项 能 力 之 前 ， 即 使 是 不 涉及 任何 特殊 的 领域 知识 ， 只 是 
从 如 出 的 文件 堆 里 获取 信息 ， 也 还 有 一 条 漫长 的 道路 要 走 。 但 它们 会 走 这 条 漫长 的 道路 ， 因 
为 需求 是 极 广大 的 。 


8.4 对 抗 情 形 


机 器 学 习 的 -个 重要 应 用 是 垃圾 邮件 的 过 滤 。 在 我 们 写作 本 书 时 (2004 年 末 )， 不 想 要 的 
邮件 是 一 个 极为 令 人 烦恼 的 问题 ， 也 许 当 你 们 读 此 书 时 这 个 恶魔 已 经 被 赶 走 了， 或 者 至 少 被 
驯服 了 。 乍 看 上 去 垃圾 邮件 过 证 是 一 个 标准 的 文件 分 类 问题 : 根据 它们 所 包含 的 文字 内 容 ， 
在 大 量 训 练 数据 的 指导 下 ， 将 文件 分 成 “火腿 ”和 “垃圾 ”两 大 类 型 。 但 它 不 是 一 个 标准 的 
问题 ， 因 为 它 有 对 抗 性 的 一 面 。 被 分 类 的 文件 不 是 从 那个 无 法 想象 的 、 巨 大 的 所 有 可 能 的 文 
件 集中 随机 抽取 的 ， 它 们 包含 那些 经 过 精心 包装 可 以 逃避 过 滤 程 序 、 被 特别 设计 来 击败 系统 
的 电子 邮件 。 

早期 的 垃圾 过 滤器 简单 地 将 包含 诸如 暗示 性 、 钱 财 及 庸 医 的 典型 垃圾 邮件 字眼 的 讯 所 清除 
掉 。 当 然 、 许 多 诉讼 来 往 (邮件 ) 涉及 到 性 别 、 金 钱 和 药物 ， 因 此 必须 有 所 权衡 。 所 以 过 滤器 
的 设计 者 们 运用 贝 叶 斯 文本 分 类 方案 ， 在 训练 过 程 中 力求 找到 一 个 适当 权衡 。 垃 圾 邮件 的 制造 
者 们 很 快 调 整 了 策略 ， 利 用 拼写 错误 将 那些 典型 字眼 隐藏 起 来 用 合法 的 文本 包装 它们 ， 也 许 
是 在 白色 的 背景 下 用 白色 的 字 打 印 的 ， 使 得 只 有 通过 特别 的 过 滤器 才 可 以 看 到 ; 或 者 简单 地 将 
垃圾 文本 放 在 其 他 地 方 ， 放 在 图 像 或 DRL 上 ， 绝 大 多 数 邮 件 阅 读 器 会 自动 下 载 它们 。 

很 难 客观 地 比较 垃圾 邮件 侦察 算法 ， 这 个 事实 使 问题 变 得 更 为 复杂 了 ， 虽 然 训 练 数据 很 
多 ， 但 隐私 问题 阻碍 了 将 大 量 有 代表 性 的 邮件 公之于众 。 并 且 还 有 强烈 的 时 间 效 应 ， 垃 级 邮 
件 快速 地 改变 特性 ， 使 交叉 验证 之 类 的 敏感 的 统计 测试 无 效 。 最 后 , “坏蛋” 也 可 以 利用 机 器 
学 习 。 例 如 ， 如 果 他 们 能 够 得 到 过 滤器 所 阻止 的 和 所 放行 的 样本 ， 便 可 以 用 这 些 作为 训练 数 
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不 幸 的 是 ， 在 今天 的 世界 里 还 有 许多 其 他 对 抗 性 的 学 习 情 形 的 例子 。 和 垃圾 邮件 问题 密 
切 相 关 的 是 搜索 引擎 垃圾 : 网 站 试图 误导 互联 网 搜索 引擎 ， 将 它们 置 于 搜索 结果 清单 中 显眼 
的 位 置 上 。 排 列 在 前 的 网 页 由 于 表明 有 广告 机 会 ， 对 利润 追逐 者 具有 强烈 的 诱惑 力 ， 从 而 能 
为 网 页 的 拥有 者 创造 经 济 利益 。 还 有 就 是 计算 机 病毒 战争 ， 令 病毒 制造 者 和 杀毒 软件 的 设计 
者 们 -- 争 高 下 。 这 个 动机 是 制造 一 般 的 破坏 和 拒绝 服务 ， 而 非 直接 赚钱 。 

计算 机 网 络 安全 是 -- 场 没有 止境 ， 且 愈演愈烈 的 战役 。 保 护 者 们 强化 网 络 、 操 作 系 统 以 
及 应 用 。 而 攻击 者 们 在 这 三 方面 寻找 薄弱 环节 。 入 侵 侦 察 系统 能 搜寻 出 不 同 寻 常 的 、 可 能 是 
由 黑客 试探 行为 引起 的 活动 模式 。 攻 击 者 意识 到 这 一 点 并 且 试 图 掩盖 他 们 的 踪迹 ， 他 们 或 许 
是 采取 间接 工作 ， 或 许 延 长 活动 时 间 。 或 者 相反 ， 非 常 迅 速 地 攻击 。 数 据 挖掘 运 用 于 这 个 问 
题 上 ， 试 图 去 发 现 被 入 侵 侦 察 系统 忽略 的 、 计 算 机 网 络 数据 中 存在 的 人 侵 者 踪迹 之 间 的 语义 
关系 。 这 是 一 个 大 规模 的 问题 : 用 来 监测 计算 机 网 络 安全 的 审核 日 志 ， 即 使 是 一 个 中 等 规模 
的 组 织 每 天 的 量 也 是 要 以 十 亿 字 节 计 的 。 

许多 自动 威胁 侦察 系统 都 建立 在 将 当前 的 数据 与 已 知 的 攻击 种 类 的 匹配 上 。 美 国联 邦 航 
空 管理 局 开发 了 计算 机 辅助 旅客 预 筛选 系统 (CAPPS ) ， 这 套 系 统 根据 旅客 航空 记录 对 旅客 进 
行 筛 选 ， 并 对 那些 需要 额外 行李 检查 的 个 人 上 做 标记 。 例 如 ，CAPPS 是 将 现金 支付 归 和 高 风 
险 的 一 类 ， 虽 然 明确 的 细节 是 不 予 公布 的 。 但 是 ， 这 个 方法 只 能 发 现 已 知 的 或 是 能 预计 到 的 
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威胁 。 研 究 者 现 作 正 在 运用 无 指导 的 方案 ， 例 如 进行 异 情 和 孤立 点 (outlier) 侦察 ， 试 图 检测 
出 可 疑 的 行为 。 除 了 侦察 潜在 威胁 以 外 、 蜡 情 侦 察 还 可 以 用 来 侦察 金融 诈骗 或 者 洗钱 这 样 的 
非法 话 动 。 

数据 挖掘 现今 正 以 国家 防御 的 名 义 用 在 大 量 的 数据 中 。 各 种 不 同 种 类 的 信息 ， 例 如 金融 
交易 、 健 康 医 疗 记 录 、 网 络 通讯 等 ， 正 被 挖掘 出 来 建立 各 种 走势 图 、 社 会 网 络 模型 以 及 监测 
丽 怖 分 子 的 通讯 联系 。 这 些 活动 引起 了 人 们 对 隐私 问题 的 极 大 关注 ， 促 进 了 保护 隐私 
(privacy-preserving ) 的 数据 控 据 技术 的 发 展 。 这 些 算法 试图 辨别 存在 数据 中 的 模式 却 不 直接 
进入 原始 数据 ， 典 型 方法 是 使 用 随机 值 使 其 失真 。 为 保护 隐私 ， 必 须 保 证 挖掘 过 程 所 获 信息 
不 足以 重建 原始 数据 。 说 来 容易 ， 要 实现 可 就 难 了 。 

并 非 所 有 对 抗 性 的 数据 挖掘 都 是 针对 穷 邮 极 恶 的 活动 的 。 在 复杂 的 、 有 王 扰 的 实时 领域 
中 的 多 代理 (multiagent) 系 统 包 括 了 一 些 自治 代理 ， 它们 不 仅 要 在 一 个 团队 中 协作 并 且 要 与 对 
手 竞争 。 如 果 你 无 法 用 肉眼 观察 到 这 种 情形 ， 联 想 一 下 英 式 足球 。 机 器 人 足球 (Robo-soccer) 
是 … 个 丰富 而 普及 的 领域 ， 可 用 以 探究 机 器 学 习 是 如 何 应 用 在 如 此 困难 的 问题 中 的 。 球 员 不 
仅 要 磨炼 基本 功 还 要 学 习 怎 样 相互 配合 以 对 付 不 同类 型 的 对 手 。 

最 后 ， 机 器 学 习 已 被 用 来 解决 历史 文献 之 读 ， 它 揭示 了 一 个 试图 隐藏 身份 的 作者 。 如 
Koppel 和 Schler ( 2004 年 ) 所 述 ，Ben Ish Chai 是 十 九 世 纪 末 巴格达 重要 的 希 伯 菜 语 学 者 。 在 
他 的 大 量 文献 中 有 两 个 文集 ， 包 括 大 约 $00 封 以 希 伯 莱 - 亚 拉 姆 文字 写成 的 回答 法 律 质询 的 信 
件 。 已 经 知道 是 他 写 了 一 个 文集 。 虽 说 他 声称 在 一 个 档案 中 发 现 了 另 - 一 个 文集 ， 历 史学 家 怀 
疑 他 也 是 另 一 个 文集 的 作者 ， 只 是 故意 改变 文风 试图 掩盖 他 的 作者 身分 。 这 个 案例 给 机 器 学 
习 提出 的 难题 是 没有 其 他 的 文集 可 归属 于 这 个 神秘 作者 。 虽 然 有 一 些 已 知 的 候选 对 象 ， 但 是 
这 些 信 件 是 由 其 他 任何 一 个 人 所 写 的 可 能 性 是 相同 的 。 -种 称 为 “ 揭 密 ”(unmasking) 的 新 
技术 被 开发 出 来 了 ， 利 用 它 建立 -种 模型 能 够 区 别 已 知 作者 的 作品 A 和 未 知 作者 的 作品 X， 连 
代 去 除 那些 对 于 辨别 二 者 最 为 有 用 的 属性 ， 随 着 越 来 越 多 的 属性 被 去 除 ， 交 又 验证 正确 率 不 
断 下 降 ， 考 察 这 个 正确 率 的 下 降 速 度 。 假 设 前 提 是 如 果 作 品 X 是 由 作品 A 的 、 那 个 想 隐 藏身 份 
的 作者 所 写 ， 那 么 作品 X 和 A 之 间 的 差别 与 作品 X 和 另外 一 个 不 同 作者 的 作品 B 之 间 的 差别 相 
比较 ， 差 别 会 表现 在 相对 较 少 的 部 分 属性 上 。 换 句 话 说 ， 将 作品 X 与 作品 A、B 分 别 比 较 时 ， 
随 着 属性 的 去 除 ， 与 作品 A 相 比较 时 的 正确 率 曲 线 下 降 比 与 B 相 比较 时 快 得 多 。B. Koppel 和 
Schler 得 出 的 结论 是 ，Ben Ish Chai 确实 撰写 了 神秘 信件 ， 他 们 的 这 项 技术 是 一 个 令 人 注目 的 、 
新 颖 独创 的 、 机 器 学 习 应 用 于 对 抗 情形 的 例子 。 


8.5 无 处 不 在 的 数据 挖掘 


本 书 的 开始 便 指出 了 数据 无 处 不 在 的 事实 。 这 些 数据 影响 着 普通 人 的 生活 ， 然 而 影响 最 
大 的 要 数 国际 互联 网 了 。 目 前 ， 在 网 上 有 超过 50 亿 份 文件 ， 总 计 大 约 20 万 亿 字 节 (TB), mH. 
还 在 呈 指 数 级 增长 、 大 约 每 6 个 月 翻 一 番 。 绝 大 多 数 美国 消费 者 使 用 网 络 。 而 他 们 中 无 人 能 和 
信息 激增 同步 。 数 据 挖掘 源 于 这 个 数据 库 所 在 的 世界 ， 文 本 挖掘 使 机 器 学 习 技 术 从 公司 移 人 
家 庭 。 无 论 何 时 ， 当 我 们 被 网 络 上 的 数据 泄 没 时 ， 文 本 挖掘 担保 我 们 有 工具 能 驯服 它 (数据 )。 
应 用 是 众多 的 。 寻找 朋 友 并 和 他 们 联系 、 保 持 金融 投资 组 合 、 在 电子 世界 中 讨价还价 地 购物 、 
用 于 任何 方面 的 数据 侦察 器 ， 所 有 这 些 都 可 以 是 自动 完成 的 ， 不 需要 程序 设计 。 文 本 挖掘 技 
术 已 经 被 运用 来 预测 你 要 点 击 的 证 一 个 链接 、 为 你 整理 文件 、 处 理 你 的 邮件 。 在 这 样 一 个 数 
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据 无 处 不 在 、 同 时 又 是 杂乱 无 章 的 世界 中 ， 文 本 挖 据 绝对 是 我 们 所 需要 的 解决 方法 。 

许多 人 相信 互联 网 预示 着 一 个 更 为 强大 的 范例 转变 : 无 处 不 在 的 计算 。 随 处 可 见 小 型 的 
便携 式 装置 ， 移 动 电话 、 个 人 电子 助手 、 个 人 立体 声 录 像 播放 器 、 数 码 相 机 、 移 动 连接 网 络 。 
有 的 设备 已 经 综合 了 所 有 这 些 功 能 。 它 们 知道 我 们 的 时 空位 置 ， 帮 助 我 们 在 社会 空间 通讯 、 
组 织 个 人 计划 、 回 顾 我 们 的 过 去 并 将 我 们 包容 在 世界 信息 空间 里 。 在 当今 美国 的 任何 一 个 中 
产 阶 级 家 庭 里 都 可 以 轻松 地 找到 许多 处 理 器 。 它 们 互相 之 间 并 不 交流 ， 也 不 和 全 球 信息 系统 
交流 ， 目 前 还 没有 。 但 它们 终 有 一 天 会 的 ， 而 这 一 天 来 到 时 ， 数 据 挖 据 的 潜力 就 会 喷 薄 而 出 。 

拿 音 乐 制品 来 说 ,流行 音乐 是 引导 技术 进步 的 先锋 。 索 尼 最 初 的 随身 听 为 今天 随处 可 见 
的 便携 式 电子 设备 铺 平 了 道路 ， 蕴 果 公 司 的 iPod 率 先 开发 了 大 容量 的 便携 式 存储 。Napster 的 
网 络 技术 促进 了 对 等 协议 (peer-to-peer protocols) 的 发 展 。 类 似 Firefly 的 推荐 系统 将 计算 技 
术 引 入 社会 网 络 中 。 在 不 久 的 将 来 ， 能 知晓 内 容 的 音乐 服务 将 姓 入 便携 式 设备 。 数 据 挖 拥 技 
术 在 网 络 化 的 音乐 服务 社区 用 户 上 的 应 用 将 是 大 量 的 ， 发 现 音乐 潮 瀛 走向、 追踪 偏好 和 品位 、 
分 析 收 听 习 惯 。 

无 处 不 在 的 计算 将 会 把 数字 空间 和 现实 世界 的 活动 紧密 地 连接 在 一 起 。 对 许多 人 来 说 ， 
有 联 测 他 们 自己 的 计算 机 经 历 总 是 充满 榨 折 感 、 神 秘 的 技术 、 感 到 个 人 (能力) 不 足 、 力 至 出 
现 计算 机 机 械 故障 ， 这 看 上 去 就 像 是 场 露 梦 。 然 而 ， 倡 导 者 们 指出 情况 并 不 会 如 此 ， 如 果 是 
这 样 ， 便 不 可 行 了 。 当 今 的 幻想 家 们 预见 到 了 一 个 “平静 ”的 计算 机 世界 ， 在 这 个 世界 里 隐 
项 的 机 器 在 幕后 默默 地 联合 工作 着 ， 使 人 类 的 生活 更 加 丰富 和 方便 。 它 们 处 理 的 问题 大 到 公 
司 财务 和 家 庭 作业 ， 小 到 一 些 令 人 烦恼 的 小 事 ， 诸 如 车 钥匙 在 哪里 、 有 停车 位 妈 、 上 星期 在 
Macy 看 到 的 那 件 T 恤 衫 还 在 衣架 上 吗 ? 当 没 有 了 电源 时 ， 时 钟 能 知道 正确 的 时 间 、 微 波 炉 能 
从 因特网 上 下 载 新 的 菜谱 、 儿 童 玩具 能 够 自动 更 新 获得 新 游戏 和 新 词汇 。 衣 服 标签 能 够 跟踪 
洗涤 、 咖 上 啡 杯 通知 清洁 工 来 清洗 、 如 果 没 有 人 在 房间 里 电灯 开关 将 会 节能 、 铅 笔 能 将 我 们 所 
画 的 进行 数字 化 。 在 这 个 全 新 的 世界 里 ， 数 据 挖掘 在 哪里 呢 ? 到 处 都 是 。 

要 指出 现在 尚 不 存在 的 未 来 的 某 个 实例 是 困难 的 。 然 而 ， 用 户 界面 技术 还 有 待 提高 。 在 
直接 操作 的 计算 机 界面 上 ,许多 重复 性 的 任务 ， 采 用 标准 的 应 用 工具 不 能 实现 自动 化 ， 人 迫使 
计算 机 用 户 必 须 重复 进行 相同 的 界面 操作 。 这 也 是 先前 提 到 的 挫折 感 的 一 个 代表 ， 由 谁 负责 : 
我 ， 还 是 机 器 ? 经 验 丰 富 的 程序 员 会 编写 一 些 脚本 程序 由 机 器 来 完成 这 样 的 任务 ， 但 是 随 着 
操作 系统 在 复杂 层 上 的 累计 增加 ， 程 序 员 对 机 器 施加 命令 的 权力 越 来 越 小 ， 并 且 当 复杂 的 功 
能 是 被 企 入 设备 中 而 非 通用 计算 机 时 ， 这 个 权力 便 消 失 了 。 

在 示范 编程 (programming by demonstration) 方面 的 研究 使 普通 的 计算 机 用 户 能 够 让 机 
器 自动 完成 任务 而 无 需 了 解 任何 编程 知识 。 用 户 只 需 知道 执行 这 个 任务 的 常规 方法 以 便 和 计 
算 机 交流 。 一 种 系统 称 为 Familiar， 能 帮助 用 户 自 动 完成 苹果 机 上 的 应 用 程序 的 重复 执行 任务 。 
它 不 仅 能 完成 这 些 任务 而 且 还 能 执行 它 所 未 遇见 过 的 新 的 任务 。 这 是 通过 使 用 苹果 的 脚本 语 
言 从 每 个 应 用 上 收集 信息 并 利用 这 些 信息 来 做 出 预测 而 实现 的 。 代 理 机 还 能 容忍 干扰 。 它 告 
知 用 户 它 所 做 的 预测 ， 并 结合 考虑 反馈 信息 。 它 具有 适应 性 : 为 个 体 用 户 学 习 特 定 的 任务 。 
而 且 ， 它 对 每 个 用 户 的 风格 是 敏感 的 。 如 果 两 个 人 都 在 传授 一 个 任务 ， 正 好 给 出 的 也 是 相同 
的 示范 ，Familiar 系 统 不 一 定 推断 出 相同 的 程序 ， 它 会 根据 用 户 的 习惯 进行 调整 ， 因 为 它 是 要 
从 人 机 之 间 的 交互 历史 中 学 习 的 。 

Familiar 应 用 标准 的 机 器 学 习 技 术 来 推断 用 户 的 意图 。 用 规则 来 评估 预测 ， 以 使 在 每 个 阶 
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段 都 能 提供 给 使 用 者 最 佳 的 预测 。 这 些 规则 是 有 条 件 的 ， 因 此 用 户 可 以 教导 分 类 任务 ， 诸 如 
按 文 件 种 类 进行 文件 整理 ， 并 根据 文件 的 大 小 来 赋予 标签 。 它 们 是 递增 地 学 习 的 : 代理 通过 
记录 人 机 之 间 的 交互 历史 来 适合 个 体 使 用 者 。 

出 现 了 许多 困难 。 一 是 数据 的 人 缺乏。 用户 厌烦 对 一 个 任务 重复 示范 几 次 ， 他 们 认为 代理 
机 应 该 理解 他 们 正在 做 的 事 。 一 个 数据 挖 所 者 认为 含 100 个 实例 的 数据 集 是 很 小 的 ， 而 用 户 示 
范 一 个 任务 儿 次 便 已 恼火 。 困 难 之 二 是 过 多 的 属性 。 计 算 机 环境 拥有 数 以 百 计 的 属性 ， 任 何 
行动 都 可 能 依赖 这 些 属性 。 这 意味 着 小 的 数据 集 极 可 能 包含 了 一 些 看 似 极 具 预测 力 而 实际 却 
是 无 关 的 属性 ， 还 需要 用 特别 的 统计 测试 来 比较 假设 。 困 难 之 三 在 于 这 种 迭代 的 、 不 断 改进 
的 发 展 模式 ， 这 个 特性 导致 数据 控 据 应 用 失败 。 从 理论 上 看 ， 不 可 能 为 类 似 示范 编程 这 样 的 
交互 式 问题 来 建立 一 个 国定 的 训练 和 测试 集 ， 因 为 代理 机 的 每 次 改进 ， 会 通过 模仿 用 户 将 如 
何 反应 来 改变 测试 数据 。 困 难 之 四 是 现 有 的 应 用 程序 只 能 提供 有 限 地 进入 应 用 程序 以 及 用 户 
数据 : 成 功 操作 所 依赖 的 原始 资料 经 常 是 被 深 埋 在 应 用 程序 内 部 ， 却 进入 不 了 。 

数据 挖掘 在 工作 中 已 被 广泛 运用 。 在 我 们 阅读 电子 邮件 和 网 上 冲浪 时 ， 文 本 挖掘 正 将 本 
书 中 的 技术 带 入 我们 的 生活 中 。 将 来 ， 它 可 能 和 我 们 所 能 想象 的 不 同 。 正 在 日 益 扩张 的 计算 
构架 将 为 学 习 提供 无 法 预言 的 机 会 。 数 据 挖 掘 将 在 幕后 扮演 -个 黄 基 的 角色 。 


8.6 补充 读物 


关于 大 型 数据 集 的 文献 极其 可 观 ， 我 们 这 里 只 能 略 举 一 二 。Fayyad 和 Smith (1995 年 ) 
论述 了 数据 挖 据 在 庞大 的 科学 实验 数据 中 的 应 用 。Shafer 等 人 (1996 年 ) 描述 了 一 种 平行 版 本 
的 自 上 而 下 的 决策 树 归 纳 法 。Mehta 等 人 (1996 年 ) 为 众多 的 磁盘 数据 集 开发 了 一 种 有 序 的 决 
策 树 算法 。Breiman (1999 年 ) 叙述 了 如 何 能 将 任何 算法 应 用 于 大 型 数据 集 ， 主 要 是 通过 将 数 
据 集 分 裂 成 较 小 的 块 ， 对 结果 进行 装 袋 或 提升 。Frank 等 人 (20024) 解释 了 相关 修剪 和 选择 
方案 。 

虽然 很 重要 ,但 有 关 将 元 数据 纳 人 实际 数据 挖 拨 中 的 文献 还 是 极 少 。Giraud-Carrier 
(1996 年 ) 考察 了 一 个 将 领域 知识 编码 成 命题 规则 的 方案 ， 以 及 它 在 演绎 和 归纳 上 的 应 用 。 与 
归纳 逻辑 编程 相关 的 、 通 过 一 阶 逻 辑 规则 来 处 理 知 识 表 达 ， 则 是 由 Bergadano 和 Gunetti (1996 
年 ) 论述 的 。 

文本 挖 据 是 - -个 新 兴 领 域 ， 因 而 关于 整个 领域 的 综合 论述 还 比较 少 :， Witten (20044) 贡 
献 了 -个 。Sebastiani (2002 年 ) 将 大 量 的 属性 选择 和 机 器 学 习 技 术 运 用 于 文本 分 类 上 。 
Martin (19954) 描述 了 文件 聚 类 在 信息 检索 方面 的 运用 。Cavnar 和 Trenkle (1994 年 ) 演示 
如 何 运用 n-gram 文 件 轮 廊 来 正确 地 确定 文件 所 使 用 的 语言 。 支 持 向 量 机 用 于 作者 归属 问题 是 
由 Diederich 等 人 (2003 年 ) 所 叙述 的 。Dumais 等 人 (1998 年 ) 用 相同 的 技术 在 大 量 训练 文 
件 的 基础 上 ， 从 受 控 词 汇 库 里 对 文件 赋予 关键 词汇 。Turney (1999 年 ) 以 及 Frank 等 人 (1999 
年 ) 都 研究 了 怎样 使 用 机 器 学 习 从 文件 文本 中 提炼 关键 词汇 。 

Appelt (1999 年 ) 论述 了 许多 关于 信息 芋 取 的 问题 。 许 多 作者 运用 了 机 器 学 习 来 为 模版 
的 槽 内 填充 内 容 提炼 寻找 规则 ， 例 如 Soderland 等 人 (1995 年 )、Huffman (1996 年 ) 以 及 
Freitag (20024). Califf 和 Mooney (1999 年 ) 以 及 Nahm 和 Mooney (2000 年 ) 都 探索 了 从 张 
贴 在 互联 网 新 闻 上 的 招工 广告 中 提炼 信息 的 问题 。Witten 等 (1999 年 ) 报告 了 一 种 基于 上 压缩 
技术 、 在 连续 的 文本 上 寻找 信息 的 方法 。Mann (1993 年 ) 从 美国 国会 图 书馆 所 收 到 的 文件 中 
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发 现 了 利比亚 领导 人 卡 扎 非 名 字 的 多 种 表达 形式 。 

Chakrabarti (2003 年 ) 写 了 一 本 优秀 的 、 综 合 性 的 、 关 于 网 络 挖掘 技术 的 书籍 。 
Kushmerick A (19974) 发 展 了 包装 归纳 技术 。Tim Berners-Lee 等 (2001 年 ) 介绍 了 语义 
网 络 ， 他 早 在 十 年 之 前 便 开 发 了 国际 互联 网 背后 的 技术 。 

第 -篇 关于 垃圾 邮件 过 滤 的 论文 是 由 Sahami 等 人 (1998 年 ) 写 的 。 我 们 关于 计算 机 网 络 
安全 的 材料 是 源 于 Yurcik 等 (2003 年 )。CAPPS 系 统 的 信息 是 来 自从 美国 众议院 关于 飞行 的 文 
件 (2002 年 )、 用 于 威胁 侦察 系统 的 无 指导 学 习 是 由 Bay 和 Schwabacher (2003 年 ) 论述 的 。 当 
前 的 保护 隐私 数据 挖掘 技术 所 存在 的 问题 是 由 Datta 等 (2003 年 ) 确定 的 。Stone 和 Veloso 
(2000 年 ) 从 机 器 学 习 的 角度 来 审视 类 似 机 器 人 足球 运动 的 多 代理 系统 。 令 人 感 兴 趣 的 有 关 Ben 
Ish Chai 的 故事 以 及 揭露 他 身份 的 技术 来 自 Koppel 和 Schler (20044 ). 

平静 的 计算 世界 景象 和 我 们 提 到 过 的 例子 来 自 Weiser (1996 年 ) 以 及 Weiser 和 Brown 
(1997 年 ) 这 两 篇 论述 。 关 于 示范 编程 的 不 同方 法 的 更 多 信息 可 以 从 Cypher (19934) 和 
Lieberman (2001 年 ) 上 找到 更 多 的 信息 。Mitchell 等 人 (1994 年 ) 报道 了 一 些 学 习 学 徒 的 经 
Dje Paynter ( 2000 年 ) 描述 了 Familiar。Good (1994 年 ) 所 论述 的 排列 测试 是 适合 小 样本 问 
题 的 统计 测试 : Frank (2000 年 ) 讨论 了 它们 在 机 器 学 习 上 的 运用 。 
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经 验 表明 ， 没 有 哪 一 种 机 器 学 习 方 案 可 以 解决 所 有 数据 挖掘 问题 。 放 之 四 海 而 皆 准 的 学 习 
器 不 过 是 一 种 幻想 。 正 如 我 们 在 本 书 中 所 强调 的 ， 真正 的 数据 集 是 多 种 多 样 的 。 要 想 获取 准 
确 的 模型 ， 学 习 算法 的 偏好 必须 与 该 领域 的 结构 相 吻合 。 数 据 控 掘 是 一 门 实验 性 很 强 的 学 科 。 

Weka 工 作 平台 汇集 了 当今 最 前 沿 的 机 器 学 习 算法 及 数据 预 处 理工 具 。 本 书 中 所 讨论 的 算 
法 几乎 都 涵盖 于 其 中 。 目 的 是 为 了 让 用 户 能 够 快速 灵活 地 将 现 有 的 处 理 方法 应 用 于 新 的 数据 
集 。 它 为 数据 挖掘 实验 的 整个 过 程 ， 包 括 准 备 要 输入 的 数据 ， 统 计 地 评估 学 习 方案 ， 以 及 可 
视 化 输入 数据 及 学 习 结 果 ， 提 供 了 广泛 的 支持 。Weka 不 但 包含 多 样 化 的 学 习 算法 ， 还 提供 大 
量 适 应 范围 很 广 的 预 处 理工 具 。 用 户 可 通过 一 个 共用 的 界面 操作 运用 所 有 已 包含 的 工具 组 件 ， 
从 而 比较 不 同 的 学 习 算 法 ， 找 出 能 够 解决 当前 问题 的 最 有 效 的 方法 。 

Weka 是 由 新 西 兰 怀 卡 托 大 学 开发 的 。Weka 是 怀 卡 托 智能 分 析 系 统 的 缩写 。 在 怀 卡 托 大 学 
以 外 的 地 方 ，Weka 通 常 按 谐 音 念 成 Mecca， 是 一 种 现今 仅 存活 于 新 西 兰 岛 的 ， 具有 好 奇 心 的 
不 会 飞 的 鸟 。Weka 是 用 Java 写 成 的 ， 并 且 限 制 在 GNU 通 用 公众 证 书 的 条 件 下 发 布 。 它 可 运行 
于 几乎 所 有 的 操作 平台 。 在 已 经 测试 过 的 平台 包括 Linux，Windows 和 Macintosh 操 作 系统 ， 甚 
至 还 包括 个 人 数字 化 助手 。Weka 提 供 了 一 个 统一 界面 ， 可 结合 预 处 理 及 后 处 理 方法 ， 将 许多 
不 同 的 学 习 算法 应 用 于 任何 所 给 的 数据 集 ， 并 评估 由 不 同 的 学 习 方案 所 得 出 的 结果 。 


9.1 Weka 中 包含 了 什么 


Weka 通 过 实现 各 种 学 习 算法 ， 使 用 户 能 够 很 容易 地 将 其 应 用 于 所 要 处 理 的 数据 集中 。 
Weka 还 包含 了 种 类 繁多 的 用 于 数据 集 转换 的 工具 ， 比 如 在 第 7 章 中 讨论 过 的 用 于 离散 的 算法 。 
用 户 可 以 先 将 一 个 数据 集 进行 预 处 理 ， 然 后 置 其 于 一 种 学 习 方案 中 ， 并 对 所 得 出 的 分 类 器 及 
其 性 能 表现 做 出 分 析 。 整 个 过 程 无 须 用 户 编写 任何 程序 代码 。 

Weka 工 作 平台 包含 能 处 理 所 有 的 标准 数据 挖掘 问题 的 方法 : 回归 、 分 类 、 聚 类 、 关 联 规 
则 挖掘 以 及 属性 选择 。 对 所 要 处 理 的 数据 进行 分 析 是 整个 工作 必 不 可 少 的 一 环 ，Weka 提 供 了 
.许多 用 于 数据 可 视 化 及 预 处 理 的 工具 。 所 有 算法 对 所 要 输入 的 数据 都 有 以 下 要 求 : 其 数据 形 
式 必 须 是 在 第 2.4 节 中 描述 过 的 ARFF 格 式 ， 并 要 求 以 单一 关系 列表 的 形式 输入 。 这 些 数 据 可 
从 文件 中 读 取 或 由 数据 库 查 询 所 产生 。 

Weka 的 使 用 方式 之 一 是 将 一 种 学 习 方法 应 用 于 一 个 数据 集 ， 然 后 分 析 其 输出 ， 从 而 更 多 
地 了 解 这 些 数据 。 另 外 一 种 方式 则 是 使 用 已 学 习 到 的 模型 对 新 的 实例 做 出 预测 。 第 三 种 方式 
是 应 用 几 种 不 同 的 学 习 器 ， 再 根据 它们 的 性 能 表现 选择 其 中 一 种 用 来 做 预测 。 学 习 方 法 又 称 
作 分 类 器 ， 用 户 可 在 Weka 互 动 式 界面 的 菜单 中 选择 一 种 想 要 的 分 类 器 。 许 多 分 类 器 带 有 可 调 





242 FAB Weka FFIFS 





节 的 参数 ， 这 些 参 数 可 通过 属性 列表 或 对 象 编 辑 器 进行 更 改 。 所 有 分 类 器 的 性 能 都 是 通过 一 
个 共同 的 评估 模块 进行 衡量 。 

Weka 平 台中 最 有 价值 的 部 分 是 真实 学 习 方案 的 实现 。 其 次 当 属 数据 预 处 理工 具 ， 也 称 作 
过 滤器 。 与 选择 分 类 器 一 样 ， 用 户 也 是 从 菜单 中 选择 能 满足 其 要 求 的 过 滤器 。 我 们 以 后 会 谈 
到 如 何 使 用 不 同 的 过 滤器 ， 并 列 出 过 滤器 所 用 的 算法 ， 及 描述 不 同 过 滤器 的 参数 。Weka 中 还 
包含 了 一 些 算 法 的 实现 ， 如 学 习 关 联 规则 ， 未 指定 类 值 的 聚 类 数据 ， 以 及 从 数据 中 选择 相关 
属性 等 。 我 们 会 简单 加 以 叙述 。 


9.2 如 何 使 用 Weka 


使 用 Weka 的 最 简单 方法 是 通过 称 作 探索 者 (Explorer) 的 图 形 用 户 界面 。 通 过 这 个 用 户 
界面 ， 所 有 Weka 的 功能 都 可 以 由 菜单 选择 及 表单 填写 的 方式 完成 。 例 如 ， 用 户 可 从 ARFF 文 
件 (或 电子 数据 表 ) 中 快速 读 取 一 个 数据 集 ， 并 根据 此 数据 集 建立 决策 树 。 然 而 建立 决策 树 
仅仅 是 开始 ， 还 有 很 多 其 他 算法 有 待 于 探索 。 探 索 者 用 户 界 面 企 这 里 大 显 身手 。 它 通过 将 选 
项 转化 为 菜单 ， 将 不 适用 的 选项 设 定 为 不 可 选 ， 以 及 将 用 户 选 项 设计 成 表格 填写 的 形式 引导 
用 户 一 步 . - 步 按照 合适 的 顺序 完成 对 算法 的 探索 。Weka 还 对 所 含 工 具 给 出 了 用 法 提示 ， 即 当 
鼠标 光标 在 屏 医 上 移 至 相应 工具 上 时 ， 以 弹出 窗口 的 形式 解释 该 工具 如 何 使 用 ， 这 对 于 用 户 
使 用 工具 极 有 和 帮助。 合理 的 默认 值 设置 使 得 用 户 能 以 最 小 的 工作 量 取得 预期 的 结果 。 当 然 ， 
用 户 必 须 对 所 做 的 操作 进行 思索 ， 才 能 理解 所 得 结果 的 确切 含义 。 

Weka 还 包含 了 另外 两 个 图 形 用 户 界面 。 知 识 流 (Knowledge Flow) 界面 使 用 户 能 够 自己 
设置 如 何 处 理 流动 中 的 数据 。 探 索 者 用 户 界面 的 -一 个 根本 缺陷 在 于 它 将 所 需 的 数据 全 部 置 于 
主 存 中 ， - 且 用 户 打开 一 个 数据 集 ， 所 有 数据 会 被 全 部 读 取 进 来 。 这 意味 着 此 种 处 理 方式 只 
适用 于 小 至 中 等 规模 的 问题 。Weka 还 包含 一 些 能 够 处 理 非常 大 型 的 数据 集 的 递增 算法 。 知 识 
流 界面 允许 用 户 在 屏幕 上 任意 拖 动 代表 学 习 算法 和 数据 源 的 方 框 ， 并 将 它们 结合 在 一 起 进行 
设置 。 这 样 使 得 用 户 能 够 通过 将 代表 数据 源 、 预 处 理工 具 、 学 习 算 靶 、 评 佑 手段 以 及 可 视 化 
模块 的 各 个 部 件 组 合 在 一 起 ， 形 成 ~- 个 数据 流 。 如 果 用 户 所 选 的 过 滤器 和 学 习 算 法 具有 递增 
学 习 功 能 ， 大 型 数据 集 的 递增 分 批 读 取 及 处 理 即 可 实现 。 

Weka 的 第 -ARH RA (Experimenter) 是 专门 设计 来 帮助 用 户 解答 实际 应 用 中 所 遇 
到 的 一 个 基本 问题 ， 即 在 将 分 类 及 回归 技术 运用 于 实践 时 ， 对 于 一 个 已 知 的 问题 ， 哪 些 方法 
及 参数 值 能 够 取得 最 佳 效果 ? 仅仅 靠 推测 是 无 法 回答 这 个 问题 的 。 我 们 设计 这 样 一 个 工作 平 
台 的 原因 之 就 是 提供 一 个 工作 环境 使 得 用 户 能 够 将 不 同 的 学 习 技术 进行 比较 。 虽 然 通 过 控 
索 者 界面 也 可 互动 式 地 做 到 这 一 点 ， 然 而 使 用 实验 者 界面 ， 用 户 可 令 处 理 过 程 自 动 化 ， 因 为 
它 能 使 有 具有 不 同 参 数 设 定 的 分 类 器 和 过 滤器 在 运行 一 组 数据 集 时 更 加 容易 ， 收 集 性 能 统计 数 
据 及 实现 显著 性 测试 时 更 加 简便 。 高 级 用 户 还 可 利用 Java 远 程 方 法 调用 (RMI) 方式 在 实验 者 
界面 上 将 计算 负荷 分 布 到 多 个 机 器 上 上。 这样， 用户 即 可 设 定好 大 规模 统计 实验 ， 然 后 令 机 器 
自动 运行 。 

隐藏 在 这 些 互 动 式 界 面 背 后 的 是 Weka 的 最 基本 功能 。 这 些 功 能 涵盖 了 Weka 系 统 的 全 部 特 
色 并 可 通过 键入 文本 命令 的 原始 方式 来 实现 。 当 用 户 打 开 并 运行 Weka 后 ， 必 须 从 如 下 四 种 不 
辣 的 用 户 界 面 中 做 出 选择 : 探索 者 ， 知 识 流 ， 实 验 者 和 命令 行 界面 。 我 们 会 在 下 面 依次 介绍 
这 些 界 面 。 大 多 数 用 户 都 会 选择 探索 者 界面 ， 至 少 在 首次 使 用 Weka 时 如 此 。 
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9.3 Weka 的 其 他 应 用 


使 用 Weka 时 -项 重要 的 可 利用 资源 是 在 线 帮助 文件 。 这 个 文件 由 源 代码 自动 生成 ， 准 
确 地 反映 了 源 代码 的 结构 。 我 们 会 解释 如 何 使 用 这 个 文件 ， 给 出 Weka 的 主要 框架 ， 并 对 含有 
指导 性 学 习 方法 的 部 分 ， 数 据 预 处 理工 具 的 部 分 ， 以 及 其 他 学 习 方案 的 部 分 加 以 强调 。Weka 
是 一 个 处 在 不 断 发 展 中 的 系统 ， 在 线 文件 总 是 在 不 断 更 新 。 因 此 ， 这 份 由 源 代码 自动 生成 的 
文件 可 确保 是 最 新 版 本 ， 而 且 是 产生 完整 可 用 的 算法 列表 的 唯一 途径 。 进一步 说 ， 这 个 文件 
对 于 那些 想 要 提升 到 较 高 层次 并 在 他 们 自己 的 Java 程 序 中 访问 Weka 程 序 库 ， 或 者 希望 编写 并 
测试 他 们 自己 的 学 习 方 案 的 用 户 来 说 也 是 极为 必要 的 。 

在 大 多 数 数据 挖掘 程序 中 ， 机 器 学 习 只 是 大 型 软件 系统 中 的 一 小 部 分 。 如 果 用 户 要 编写 
一 个 自己 的 数据 挖 扬 软 件 ， 最 好 在 其 软件 的 代码 中 调用 Weka 的 程序 。 这 样 做 用 户 只 需 额外 编 
写 最 少量 的 代码 ， 即 可 解决 他 们 软件 中 有 关机 器 学 习 的 子 问 题 。 我 们 以 一 个 用 Java 写 成 的 有 
关 数 据 挖 揪 的 简单 程序 作为 范例 ， 来 说 明 如 何 调 用 Weka 中 的 程序 。 这 样 用 户 即 可 对 Weka 中 代 
表 实 例 ， 分 类 器 和 过 滤器 的 基本 数据 结构 加 以 熟悉 。 

如 果 用 户 要 成 为 机 器 学 习 算法 的 专家 (或 者 用 户 已 经 是 专家 )， 可 能 他 们 会 实现 自己 的 算 
法 ， 无 需 把 注意 力 放 在 -一些 索然 乏味 的 细节 上 ， 例 如 从 文件 中 读 取 数据 ， 实 现 过 滤 算 法 ， 或 
编写 代码 来 评估 所 得 结果 等 等 。 如 果 用 户 真 想 这 么 做 的 话 ， 以 下 应 该 是 个 好 消息 : Weka 中 已 
经 包含 所 有 以 上 这 些 功能 。 要 充分 利用 Weka 的 这 些 功能 ， 用 户 必须 透彻 地 了 解 Weka 的 基本 数 
据 结构 。 为 了 帮助 用 户 做 到 这 一 点 ， 我 们 会 进一步 探讨 这 些 结构 并 且 利 用 一 个 示范 性 的 分 类 
器 的 实现 过 程 加 以 解释 。 


9.4 如 何 得 到 Weka 


Weka 可 由 以 下 网 址 获取 : http:Wwww.cs.waikato.ac.nz/ml/weka。 用 户 既 可 以 下 载 一 个 与 有 具 
体操 作 系 统 相 匹配 的 安装 文件 ， 也 可 以 下 载 一 个 可 执行 的 Java 包 文件 (jar file )， 然 后 在 已 安 
装 了 Java 的 机 器 上 以 通常 的 方式 运行 。 我 们 建议 用 户 现在 就 下 载 并 安装 ， 然 后 按照 后 面 章节 
中 给 出 的 范例 进行 操作 。 





第 10 章 Explorer 界 面 


通过 Weka 的 主要 图 形 用 户 界面 Explorer (探索 者 ) ，Weka 的 所 有 功能 缘 可 以 菜单 选择 或 表 
单 填写 的 方式 来 访问 到 。 图 10-1 展 示 了 探索 者 界面 。 在 探索 者 界面 顶部 的 六 个 不 同 的 标签 ， 
表示 六 个 不 同 的 面板 ， 分 别 对 应 着 Weka 所 支持 的 不 同 的 数据 挖掘 方式 。 
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图 10-1 探索 者 用 户 界面 


10.1 开始 着 手 


假设 用 户 有 一 些 数据 并 且 想 用 这 些 数据 建立 一 个 决策 树 。 首 先 ， 用 户 需要 准备 数据 ， 启 
动 探 索 者 界面 ， 并 载 人 数据 。 其 次 ， 选 择 一 种 构建 决策 树 的 方法 将 树 建立 起 来 ， 并 解析 得 出 
的 结果 。 使 用 不 同 的 构建 决策 树 的 算法 或 不 同 的 评估 手段 来 重复 以 上 过 程 并 不 难 。 这 体现 在 
用 户 可 在 探索 者 界面 中 任意 选择 每 次 过 程 所 得 出 的 不 同 结果 ， 评 估 基 于 不 同 数据 集 所 建立 的 
模型 ， 并 且 图 形 化 所 得 出 的 模型 及 数据 集 本 身 ， 包 括 使 用 该 模型 所 产生 的 任何 分 类 误差 。 


10.1.1 准备 数据 


数据 通常 存储 于 电子 数据 表 或 数据 库 中 。 然 而 ，Weka 存 储 数据 的 原始 方式 是 ARFF 格 式 
(第 2.4 节 )。 由 电子 数据 表 转 换 为 ARFF 格 式 非常 容易 。ARFF 文 件 是 由 一 组 实例 组 成 ， 并 且 每 
个 实例 的 属性 值 由 逗号 分 开 (图 2-2)。 大 多 数 电子 数据 表 及 数据 库 程序 允许 用 户 将 数据 导入 
逗号 分 隔 数值 (CSV ) 格式 的 文件 中 ， 该 格式 文件 是 由 一 组 记录 组 成 ， 且 每 项 记录 中 的 每 个 
条 目 由 逗号 分 隔 。 做 完 这 一 步 后 ， 用 户 只 需 将 文件 载 入 一 个 文本 编辑 器 或 文字 处 理 软件 ,用 
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@relation 标 签 给 该 数据 集 取 个 名 字 ， 用 @attribute 标 签 加 入 属性 信息 ， 再 另 起 一 行 键 入 @data， 
最 后 将 文件 以 纯 文 本 方式 存储 即 可 。 如 图 10-2 中 所 示 是 一 个 取 自 1.2 节 中 的 天 气 数据 的 Excel 电 
子 数 据 表 ， 载 入 微软 Word 处 理 器 后 以 CSV 格 式 呈 现 的 同一 组 数据 ， 以 及 以 手动 方式 转换 成 
ARFF 文 件 后 的 结果 。 其 实 ， 用 户 自己 无 需 真正 履行 这 些 步骤 来 建立 ARFF 文 件 ， 正 如 后 面 将 
要 描述 的 一 样 ， 探 索 者 能 够 直接 读 取 CSV 电 子 数据 表 。 
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a) 电子 数据 表 b) CSV 格 式 








c) ARFF 格 式 
图 10-2 天 气 数据 


10.1.2 将 数据 载 入 探索 者 


现在 将 数据 载 入 探索 者 并 开始 分 析 。 启 动 Weka 进 入 图 10-3a 所 示 画 面 。 从 画面 底部 的 四 个 
图 形 用 户 界面 选项 中 选择 探索 者 (Explorer)。( 其 他 选项 在 前 面 的 章节 中 已 做 过 介绍 : 
SimpleCLI 是 旧式 的 命令 行 界 面 。) 

接 下 来 用 户 看 到 的 就 是 探索 者 的 主 面板 图 10-3b。 实 际 上 ， 图 10-3b 所 示 的 是 用 户 已 经 将 天 
气 数据 载 入 探索 者 后 的 画面 。 面 板 顶 部 的 六 个 标签 代表 着 探索 者 所 支持 的 基本 操作 功能 。 现 
在 进入 了 预 处 理 阶 段 (Preprocess)。 单 击 Open file (打开 文件 ) 按钮 ， 通 过 弹出 的 标准 对 话 框 
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用 户 可 选择 文件 。 选 择 名 为 weather.arff 的 文件 。 如 果 该 文件 是 CSV 格 式 的 ， 则 将 其 从 ARFF 数 
据 文件 改 为 CSV 数 据 文件 。 当 用 户 指 定 一 个 .csv 文 件 时 ， 该 文件 会 自动 转换 成 ARFF 格 式 。 

文件 载 和 后， 画面 应 如 图 10-3b 所 示 。 ,由 面板 中 所 载 入 的 数据 集 可 知 : 它 含 有 14 个 实例 和 
5 项 属性 (面板 中 间 偏 左 ) ; 这 5 项 属性 是 阴 晴 (outlook), 温度 (temperature), it FE 
(humidity), HIA (windy) 和 玩 (面板 左下 方 )。 第 一 项 属性 阴 上 晴 是 默认 选项 (用 户 可 通过 单 
击 选 择 其 他 属性 )， 它 没有 残缺 值 ， 但 有 三 个 不 同 的 属性 值 ， 并 且 没 有 唯一 值 。 它 的 三 个 属性 
值 是 sunny (W), overcast (BA) 和 rainy (M), 且 分 别 出 现 了 5 次 、4 次 和 5 次 (面板 中 间 偏 右 )。 
面板 右 下 方 的 柱状 图 表明 了 相对 于 属性 阴 晴 的 每 个 值 ， 类 玩 (play) 的 两 种 值 (yes 和 no) 中 
的 每 一 种 各 自 所 出 现 的 比率 。 柱 状 图 是 对 应 于 属性 阴 上 畏 ， 因 为 阴 晴 出 现在 柱状 图 上 方 的 框 中 ， 
用 户 可 任意 选择 其 他 属性 并 画 出 对 应 的 柱状 图 。 这 里 玩 被 选 定 为 类 属性 ; 用 来 给 柱状 图 加 上 
色彩 ， 而 且 其 他 要 求 类 值 的 过 滤器 也 会 用 到 它 。 





a) 选择 探索 者 界面 b) 读 入 天 气 数据 


10-3 Weka 探 索 者 


图 10-3b 中 的 属性 阴 晴 是 名 词性 的 。 如 果 用 户 选 择 的 是 数值 性 属性 ， 框 中 会 出 现 最 小 值 、 
最 大 值 、 平 均值 和 标准 偏差 。 在 这 种 情况 下 ， 柱 状 图 所 显示 的 是 类 作为 该 项 属性 的 一 个 函数 
的 分 布 。( 图 10-9 给 出 了 该 种 情况 下 的 一 个 例子 。) 
用 户 可 通过 单 击 复 选 框 和 Remove (删除 ) 按钮 来 删除 属性 。 单 击 40 (全 部 ) 则 选中 全 部 
MHE, None (无 ) 表示 不 选 ，Invert ( 反 转 ) 则 反 向 转换 目前 的 选择 。 用 户 可 通过 点 击 Undo 
按钮 撤消 所 做 的 改动 。 点 击 Edit 按 钮 会 弹出 一 个 编辑 器 。 通 过 该 编辑 器 ， 用 户 可 检查 数据 ， 搜 
索 具 体 的 值 并 对 其 进行 编辑 ， 以 及 删除 实例 和 属性 。 在 每 个 值 以 及 每 列 的 表 头 上 右键 点 击 会 
弹出 相对 应 的 上 下 文 菜单 。 


10.1.3 建立 决策 树 


要 想 了 解 第 6.1 节 中 描述 过 的 C4.5 决 策 树 学 习 器 是 如 何 处 理 数据 集 的 ， 我 们 必须 利用 J4.8 
算法 ， 这 个 算法 是 C4.5 学 习 器 的 Weka 实 现 。(J4.8 算 法 实际 上 实现 了 一 个 被 称 作 C4.5 的 修正 版 
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8 的 较 新 的 且 略 有 改进 的 版 本 ， 这 也 是 在 它 的 商业 版 C5.0 推 出 前 ， 该 算法 家 族 中 的 最 后 一 个 公 
开 的 版 本 。 ) 单 击 class 态 标签， 得 到 如 图 10-4b 所 示 画 面 。 该 画面 所 显示 的 实际 上 是 用 户 对 天 
气 数据 做 出 分 析 后 得 到 的 结果 。 

第 一 步 选 取 分 类 器 。 单 击 左上 方 的 Choose 按 钮 ， 在 随后 打开 的 如 图 10-4a 所 示 的 层级 式 菜单 
中 的 trees 部 分 找到 J48。 该 菜单 的 结构 代表 着 Weka 源 代码 的 模块 式 架构 ， 这 部 分 我 们 会 在 第 13 
章 中 加 以 描述 。 用 户 现在 所 要 做 的 只 是 打开 相应 的 层级 ( 即 箭头 )， 待 选 分 类 器 总 是 出 现在 层级 
的 最 底层 。 一 旦 被 选中 ，J48 以 及 它 的 相关 默认 参数 值 就 会 出 现在 Choose 按 钮 旁边 的 条 形 框 中 ， 
如 图 10-4b 所 示 。 单 击 这 个 条 形 框 会 打开 J4.8 分 类 器 的 对 象 编辑 器 ， 编 辑 器 会 显示 J48 的 各 个 参数 
的 含义 ， 且 用 户 可 根据 需要 更 改 参 数 的 值 。 探 索 者 通常 会 合理 地 设 定 这 些 参 数 的 默认 值 。 

选 定 分 类 器 后 ， 单 击 Start 按 钮 使 其 开始 工作 。Weka 每 次 运行 的 时 间 较 短 。 在 它 工作 时 ， 
坐 在 图 10-4b 右 下 角 的 小 鸟 会 即时 起 舞 ， 随 后 就 会 产生 如 图 10-4b 所 示 主 面板 上 的 结果 。 








==- Oeteiled Accuracy By Class === 
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b) Classi 标 签 页 
图 10-4 使 用 J4.8 
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10.1.4 查看 结果 


图 10-5 列 出 了 全 部 输出 结果 (图 10-4b 所 示 只 是 后 半 部 分 )。 在 该 结果 的 开头 给 出 了 数据 集 
概要 并 注 明 所 用 的 评估 方法 是 10 折 交叉 验证 。 读 方法 是 默认 的 ， 如 果 用 户 仔细 观察 图 10-4b 会 
发 现 左 侧 的 交叉 验证 (Cross-validation) -项 是 选中 的 。 再 往 下 是 一 个 修剪 过 的 决策 树 的 文 
档 表格 。 首 先 根据 属性 阴 晴 进行 分 割 ， 然 后 分 别 根据 湿度 和 刮 风 在 第 二 层次 上 进行 分 割 。 在 
这 个 树 结构 中 ， 冒 号 后 面 的 是 分 配 到 某 个 具体 叶 的 类 标志 ， 类 标志 的 后 面 是 到 达 该 叶 的 实例 
的 数量 。 该 数量 是 以 十 进 制 数 表示 的 ， 这 是 因为 所 用 的 算法 在 处 理 残 缺 值 时 ， 使 用 按 比例 分 
解 过 的 实例 。 如 果 有 被 错误 分 类 的 实例 (图 中 没有 这 样 的 实例 )， 这 种 实例 的 数量 也 会 列 出 。 
比方 说 ，2.0/1.0 表 示 共 有 两 个 实例 到 达 了 该 叶 ， 其 中 一 个 是 被 错误 分 类 的 。 在 树 结构 的 下 方 
给 出 了 该 树 所 含 的 叶 的 数量 ， 然 后 是 节点 的 总 数 ( 树 的 大 小 )。 有 ~- 种 方式 可 以 更 加 图 形 化 地 
浏览 树 的 结构 ， 见 10.1 节 。 








=== Run information === | 
Scheme: weka.classifiers.trees.J48 -C 0.25 -M2 
Relation: weather 
Instances: 14 
Attributes: 5 
outlook 
temperature 
humidity 
windy 
: play 
Test mode: 10-fold cross-validation 


=== Classifier model (full training set) === 


J48 pruned tree 


outlook = sunny 
humidity <= 75: yes (2.0) 
humidity > 75: no (3.0) 
outlook = overcast: yes (4.0) 
outlook = rainy 
windy = TRUE: no (2.0) 
windy = FALSE: yes (3.0) 


Number of Leaves : 5 
Size of the tree : 8 


Time taken to build model: 0.27 seconds 








Correctly Classified Instances 9 64.2857 $ | 


图 10-5 J4.8 决 策 树 学 习 器 的 输出 结果 
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Incorrectly Classified Instances 5 35.7143 $% 
Kappa statistic 0.186 

Mean absolute error 0.2857 

Root mean squared error 0.4818 

Relative absolute error 60 % 

Root relative squared error 97.6586 $ 

Total Number of Instances 14 
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=== Detailed Accuracy By Class === 











TP Rate FP Rate Precision Recall F-Measure Class 
0.778 0.6 0.7 0.778 0.737 yes 
0.4 0.222 0.5 0.4 0.444 no 

=== Confusion Matrix === 

ab <-- classified as 
72 | a = yes 
3 2 | b = no 
图 10-5 ( 续 ) 


接 下 来 是 对 该 决策 树 的 预测 能 力 所 做 的 评估 。 对 图 中 所 举 的 例子 来 说 ， 该 评估 是 通过 
默认 的 分 层 10 折 交叉 验证 得 到 的 ， 如 图 10-4b 所 示 。 由 图 中 可 知 ， 超 过 30% 的 实例 (14 个 
中 的 5 个 ) 在 交叉 验证 中 被 错误 分 类 。 这 表明 ， 相 比较 根据 同样 数据 源 得 来 的 独立 测试 集 
所 可 能 得 到 的 结果 来 说 ， 由 训练 数据 所 得 的 结果 是 过 于 乐观 了 。 用 户 还 可 在 〈5.7 节 所 述 ) 
最 下 方 的 混 清 矩阵 中 看 到 ， 有 两 个 属于 yes 的 实例 被 分 人 类 no， 同 时 类 no 的 3 个 实例 被 分 给 
了 类 yes 。 

除了 列 出 分 类 误差 ， 评 估 模 块 还 在 输出 结果 中 给 出 Kappa 统 计数 据 (5.749) 和 平均 绝对 
误差 ， 以 及 由 决策 树 指 定 的 类 的 概率 估计 的 根 均 方 差 。 根 均 方 差 是 平均 一 次 平方 损失 的 平方 
根 (5.6 节 )。 平 均 绝对 误差 也 是 以 类 似 的 方法 计算 出 来 的 ， 只 是 将 平方 差 换 成 绝对 差 。 评 佑 
模块 还 输出 基于 先 验 概 率 基础 上 的 相对 误差 ( 即 ， 由 后 面 将 要 描述 的 ZeroR 学 习 方 案 所 得 到 的 
概率 )。 最 后 ， 它 还 会 针对 每 个 类 给 出 5.7 节 中 描述 过 的 一 些 统计 数据 。 


10.1.5 重 做 一 遍 

用 户 可 以 很 容易 地 用 不 同 的 评估 手段 将 1J4.8 再 运行 - 遍 。 选 中 Vse training set (图 10-4b 左 
上 方 )， 然 后 单 击 Start 按 钮 。 很 快 ， 分 类 器 输出 结果 给 出 了 对 训练 集 所 导出 的 模型 的 表现 情况 
而 不 是 交叉 验证 的 结果 。 此 评估 有 些 过 于 乐观 了 (5.1 节 )。 然 而 ， 这 类 评估 通常 代表 了 所 用 
模型 对 初次 使 用 的 数据 处 理 能 力 的 上 限 ， 因 此 依然 不 无 帮助 。 在 这 种 情况 下 ， 全 部 14 个 训练 
实例 缘分 类 正确 。 有 些 时 候 ， 某 个 实例 也 许 会 决定 对 -一些 实例 不 作 分 类 。 在 这 样 的 情况 下 ， 
这 些 实 例 作 为 未 分 类 实例 (Unclassified Instances) 列 出 。 对 Weka 中 的 大 多 数学 习 方 案 来 说 ， 
这 样 的 情况 通常 不 会 出 现 。 


图 10-4b 所 示 面 板 上 的 其 他 测试 选项 是 ，Supplied test set (提供 的 测试 集 )， 即 用 户 指定 一 


个 含有 测试 集 的 文件 ，Percentage split (百分比 分 割 )， 这 种 情况 下 ， 用 户 可 将 -- 定 比例 的 数 
据 留 作 测试 用 。 单 击 More options (更 多 选项 ) 按钮 ， 并 检视 相应 条 目 ， 用 户 可 在 屏幕 上 输出 
每 个 实例 的 预测 精度 。 面 板 上 还 有 其 他 一 些 选项 ， 如 省 略 一 些 输出 项 目 ， 设 定 输出 结果 中 含 
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ARF BE A AR AS OR fh RE HE SE. MP. PE Classeste t g 
ABBR (RER, Enter Return gees ik), CERI EI RARE (5.757) 中 按 要 求 修 
改 相关 数据 。 

在 图 10-4b 左 下 方 的 小 窗口 中 有 一 条 点 亮 的 横向 的 栏 ， 这 里 给 出 的 是 所 得 结果 的 历史 列表 。 
每 次 用 户 运行 一 个 分 类 器 ， 探 索 者 会 加 入 一 条 新 栏 。 因 为 到 目前 为 止 该 分 类 器 被 运行 过 两 次 ， 
该 列表 中 有 两 条 横 栏 。 要 返回 到 前 面 的 结果 集 ， 只 需 单 击 相关 的 横 栏 ， 对 应 此 次 运行 的 输出 
就 会 出 现在 分 类 器 输出 窗口 中 。 该 功能 使 得 浏览 不 同 的 分 类 器 或 评估 方案 并 反复 比较 他 们 的 
结果 变 得 非常 容易 。 


10.1.6 运用 模型 


输出 结果 历史 列表 是 使 用 探索 者 某 些 强大 功能 的 人口。 当 用 户 右键 单 击 其 中 -- 项 时 ， 随 
后 出 现 的 菜单 允许 用 户 在 单独 的 窗口 查看 结果 ， 或 将 结果 存储 下 来 。 更 重要 的 是 ， 用 户 可 将 
Weka 所 产生 的 模型 以 Java 对 象 文件 的 形式 保存 起 来 。 用 户 还 可 重新 载 和 人 以 前 保存 过 的 模型 , 
这 样 会 在 历史 列表 中 产生 个 新 的 记录 。 如 果 现 在 用 户 提供 一 个 测试 集 ， 则 可 用 这 个 新 测试 
集 重 新 评估 以 前 的 旧 模 型 。 

右键 单 击 弹出 的 菜单 中 几 个 选项 允许 用 户 以 不 同 的 方式 可 视 化 所 得 各 种 方法 的 结果 。 在 
探索 者 界面 的 顶部 有 一 个 Visualize 标 签 ， 但 这 个 标签 不 同 的 地 方 在 于 : 它 是 用 来 显示 数据 集 而 
不 是 某 个 模型 的 输出 结果 的 。 通 过 右键 单 击 历史 列表 中 的 项 目 ， 用 户 可 看 到 分 类 器 的 误差 。 
如 果 所 用 模型 是 树 或 贝 叶 斯 网 络 ， 用 户 可 看 到 它 的 结构 。 用 户 还 可 浏览 边 差 曲线 (7.5 节 ) 及 
不 同 成 本 和 靖 曲 线 (5.7 节 )。 对 于 成 本 和 阔 曲 线 ， 用 户 可 从 分 菜单 中 选取 一 个 类 值 。 然 后 利 
用 菜单 中 的 Visualize threshold curve 选 项 来 查看 改变 不 同 的 、 使 某 个 实例 分 人 该 类 值 的 概率 阔 
值 后 所 得 曲线 的 效果 。 可 供用 户 选 择 的 曲线 范围 很 广 ， 包 括 ROC 和 反馈 率 -~ 精确 率 曲线 〈 表 5- 
7)。 要 选取 曲线 ， 从 所 给 菜单 中 设 定 合 适 的 X 和 YY 坐标 轴 。 例 如 ， 对 一 个 ROC 曲 线 来 说 ， 将 X 
设 为 False positive rate, Yi True positive rate， 或 X 设 为 反馈 率 (Recall)，Y 设 为 精确 率 
(Precision)， 则 得 到 反馈 率 - 精 确 率 曲 线 。 

图 10-6 给 出 了 两 种 方式 查看 利用 ]4.8 对 获 尾 花 数 据 集 进 行 分 类 的 结果 (1.2 节 )， 这 里 没有 
使 用 天 气 数据 集 是 因为 用 人 芒 尾 花 数据 集 生成 的 图 更 有 趣 。 图 10-6a 显 示 了 所 产生 的 树 。 在 窗口 
的 空白 处 右键 单 击 弹出 一 -个 菜单 ， 用 户 可 设 定 图 形 尺寸 自动 调整 或 者 说 使 树 更 适合 窗口 的 大 
小 。 拖 动 鼠标 可 使 树 在 窗口 中 任意 移动 。 如 果树 已 经 根据 所 用 算法 存储 下 来 ， 还 可 将 任意 节 
点 上 的 实例 数据 图 形 化 。 

图 10-6b 用 二 维 点 阵 显 示 了 分 类 器 误差 。 用 户 可 利用 界面 顶部 的 选择 框 为 坐标 X 和 Y 选 择 
属性 还 有 一 个 办 法 是 单 击 位 于 二 维 点 阵 右 侧 的 带 斑点 的 水 平 条 中 的 任何 一 条 : 左 键 单 击 确 
定 X 坐 标 ， 右 键 确 定 Y。 每 个 水 平 条 显示 的 是 对 应 着 该 属性 的 实例 分 布 。 字 母 X 和 Y 会 分 别 出 
现在 用 户 所 选 定 的 作为 相应 X 和 Y 坐 标的 水 平 条 旁边 。 

代表 数据 的 点 用 不 同 的 颜色 区 分 各 自 所 属 的 类 : 蓝 ， 红 和 绿 ， 分 别 代表 草 尾 花 Setosa， 
Versicolor 和 Virginica ( 见 屏 幕 底部 标注 )。 被 正确 进行 分 类 的 实例 用 十 字 交 叉 表示 ， 未 被 正确 
分 类 的 实例 则 用 小 方 框 标明 (图 10-6b 中 共有 3 个 小 方 框 )。 用 户 可 单 击 任何 一 个 代表 实例 的 点 
查看 其 详细 信息 : 实例 的 编号 ， 属 性 值 ， 实 际 所 属 的 类 和 预测 出 的 类 。 
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b) 分 类 器 的 误差 
图 10-6 ”可视化 J4.8 应 用 于 莹 尾 花 数 据 集 上 的 结果 


10.1.7 运行 错误 的 处 理 


在 历史 结果 列表 的 下 面 ， 即 图 10-4b 的 底部 ， 是 状态 栏 。 通 常 状态 栏 只 是 简单 显示 OK。 有 
时 候 状态 栏 会 显示 See error log ( 见 出 错 日 志 )， 表 明 运行 中 出 现 错误 。 例如， 各 种 不 同 的 需 由 
用 户 在 面板 上 进行 设 定 的 选项 通常 都 有 一 些 限定 条 件 。 绝 大 多 数 情况 下 ， 界 面 上 不 兼容 的 选项 
会 被 设 成 不 可 选 (灰色 ) ， 即 用 户 无 法 选择 它们 。 但 偶尔 也 有 这 样 的 情况 ， 太 复杂 的 人 机 互动 
导致 用 户 能 够 选择 一 些 不 兼容 的 选项 。 在 这 种 情况 下 ， 当 Weka 意 识 到 出 错时 ， 通 常 是 用 户 单 
击 Start 时 ， 状 态 栏 会 出 现 提示 。 要 查看 出 错 信 息 ， 单 击 界面 Weka 乌 的 右 下 角 的 左 侧 Log 按 钮 。 


10.2 RR “RRA” 


在 图 10-3b 和 图 10-4b 中 我 们 简单 介绍 了 探索 者 窗口 顶部 六 个 标签 中 的 两 个 。 在 此 ， 对 他 们 
的 功能 做 一 下 小 结 : 
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1) 预 处 理 (Preprocess): 选择 数据 集 ， 并 以 多 种 方式 对 其 进行 修改 。 

2) 分 类 (Classify): 训练 用 作 分 类 或 回归 的 学 习 方 案 ， 并 对 它们 做 评估 。 

3) RAE (Cluster): 学 习 数据 集 的 聚 类 。 

4) 关联 (Associate): 学 习 数 据 的 关联 准则 并 对 其 评估 。 

5) 选择 属性 (Select attributes): 在 数据 集中 选择 最 相关 的 部 分 。 

6) 可 视 化 (Visualize): 查看 不 同 的 二 维 数据 点 图 并 与 其 互动 。 

在 每 个 标签 页 都 可 以 使 用 全 部 功能 。 到 目前 为 止 ， 我 们 也 只 是 对 预 处 理 和 分 类 面板 做 了 
肤浅 的 探讨 。 

在 每 个 面板 的 底部 有 一 个 状态 (Status) 栏 和 一 个 日 志 (Log) 按钮 。 用 户 可 由 状态 栏 中 
显示 的 信息 知道 Weka 正 在 做 什么 。 例 如 ， 如 果 探 索 者 正在 载 人 一 个 文件 ， 状 态 栏 中 会 显示 这 
个 信息 。 右 键 单 击 状态 栏 中 的 任意 一 点 会 弹出 一 个 含有 两 个 选项 的 小 菜单 : 显示 Weka 目 前 可 
用 的 存储 器 容量 和 运行 Java 废 物 收集 器 。 需 要 指出 的 是 ， 废 物 收集 器 是 作为 一 个 后 人 台 任 务 不 
间断 运行 的 。 

单 击 Log 按 钮 会 打开 一 个 文本 日 志 ， 其 中 记录 着 Weka 在 该 次 运行 期 间 所 进行 的 所 有 活动 
以 及 各 项 活动 的 时 间 。 

如 前 所 述 ， 当 Weka 运 行 时 ， 坐 在 探索 者 窗口 右 下 角 的 小 岛 站 起 来 跳舞 。 x 旁边 的 数字 显 
示 有 多 少 同时 进行 的 进程 。 如 果 小 鸟 站 在 那里 不 动 ， 说 明 它 病 了 ! Weka 出 现 运行 错误 ， 用 户 
必须 重新 启动 探索 者 。 


10.2.1 载 入 及 过 滤 文 件 


在 图 10-3b 中 预 处 理 面 板 的 顶部 有 一 些 按钮 是 用 来 打开 文件 ， 站 点 及 数据 库 的 。 初 始 状态 ， 
只 有 名 字 以 .arff 结尾 的 文件 出 现在 文件 浏览 器 中 ， 要 想 浏览 其 他 格式 的 文件 ， 调 整 文件 选择 
框 中 的 Format (格式 ) 选项 。 

将 文件 转换 为 ARFF 格 式 

Weka 带 有 三 种 文件 格式 转换 器 : 分 别 用 于 扩展 文件 名 为 .csv 的 表格 文件 ， 扩 展 文件 名 
为 .naames 和 .data 的 C4.5 原 始 文件 格式 ， 以 及 扩展 文件 名 为 .bsi 的 已 经 被 串 行 化 的 实例 。 可 适用 
的 转换 器 是 根据 扩展 文件 名 决定 的 。 如 果 Weka 无 法 载 入 数据 ， 它 会 尝试 着 将 其 当 作 ARFF 格 
式 来 处 理 。 如 果 不 成 功 ， 它 会 弹出 如 图 10-7a 所 示 的 对 话 框 。 

图 10-7a 所 示 是 一 个 普通 的 对 象 编辑 器 ，Weka 自 始 至 终 用 它 来 选择 和 设 定 对 象 。 例 如 ， 当 
用 户 为 一 个 分 类 器 设 定 参数 时 ， 所 用 的 就 是 同样 的 对 话 框 。 图 中 用 于 载 入 .csv 文 件 的 
CSVLoader (CSV 载 人 器 ) 是 默认 选 定 的 ， 单 击 More 按 钮 会 得 到 更 多 有 关 CSVLoader 的 信息 ， 
见 图 10-7b。 阅 读 帮 助 文件 总 是 有 益 的 ! 就 此 例 来 说 ， 帮 助 文件 说 明 电子 数据 表 的 第 一 行 决定 
了 属性 的 名 字 等 。 单 击 OK 即 可 应 用 这 个 转换 器 。 图 10-7c 中 ， 单 击 Choose 可 从 列表 中 选择 不 
同 的 转换 器 。 

ArffLoader (Arff 载 人 器 ) 是 第 一 个 选项 ， 我 们 之 所 以 面临 这 些 选项 是 因为 之 前 的 步骤 不 
成 功 。CSVLoader 是 默认 的 ， 要 更 换 其 他 选项 ， 单 击 Choose。 第 三 个 选项 是 C4.5 格 式 ， 内 有 
两 个 文件 构成 一 个 数据 集 ， 其 中 一 个 文件 是 域名 ， 另 一 个 是 实际 数据 。 第 四 个 选项 串 行 化 的 
实例 (serialized instances) 用 来 重新 载 人 已 经 被 存储 为 串 行 化 的 Java 对 象 的 数据 集 。 任 何 Java 
对 象 皆 可 以 该 种 形式 存储 并 重新 载 入 。 作 为 一 种 原始 的 Java 格 式 ， 它 比 载 入 ARFF 格 式 文件 要 
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快 得 多 。ARFF 格 式 文件 需 经 过 解析 和 检查 。 当 需要 不 停 地 重新 载 和 大 的 数据 集 时 ， 将 它们 存 
成 这 种 形式 会 很 有 用 。 

图 10-7a 所 示 的 通用 对 象 编辑 器 的 其 他 功能 包括 : 存储 (Save)， 将 一 个 经 过 设置 的 对 象 存 
储 起 来 ， 和 打开 (Open)， 打 开 一 个 以 前 存储 过 的 对 象 。 这 些 功 能 对 于 图 中 所 举 的 例子 也 许 用 


不 上 ,但 是 这 个 编辑 器 的 其 他 一 些 面板 有 很 多 可 编辑 的 属性 ， 当 用 户 设 定 这些 属 性 遇 到 麻烦 . 


时 ， 可 将 那些 已 设 定 过 的 对 象 存储 起 来 以 备 将 来 使 用 。 





a) 编辑 器 b) 更 多 信息 ( 单 击 More) 





c) 选择 转换 器 ( 单 击 Choose) 


图 10-7 通用 对 象 编 辑 器 


用 户 计算 机 上 的 文件 并 不 是 Weka 数 据 集 的 唯一 来 源 。 用 户 可 打开 一 个 URL (统一 资源 定 
位 器 ) ，Weka 可 利用 HTTP 协 议 由 Web 网 下 载 一 个 ARFF 文 件 。 用 户 还 可 打开 一 个 数据 库 
(OpenDB)， 可 以 是 任何 已 装载 JDBC (Java 数 据 库 连接 ) 驱动 程序 的 数据 库 ， 并 利用 SQL 选 
择 语句 获取 实例 。 选 择 语句 会 返回 一 个 联系 ，Weka 可 将 此 联系 作为 一 个 ARFF 文 件 读 入 。 欲 
使 该 功能 也 能 用 于 用 户 的 数据 库 ， 用 户 必须 对 Weka 发 行 配套 包 中 的 Weka/experiment/ 
DatabaseUtils.props 文 件 进行 修改 。 修改 的 方式 是 将 用 户 数据 库 的 驱动 程序 添加 到 这 个 文件 中 。 
( 读 取 这 个 文件 的 方式 是 展开 Weka 发 行 配套 包 中 的 Weka.jar 文 件 。) 

利用 图 10-3b 的 Save 按 钮 ， 数 据 可 存储 为 前 述 格式 中 的 任意 一 种 。 除 了 载 和 信和 存储 数据 集 
功能 ， 用 户 还 可 通过 预 处 理 面板 ， 过 滤 数 据 集 。 过 滤器 是 Weka 的 一 个 重要 组 件 。 


使 用 过 滤器 


单 击 图 10-3b 中 的 Choose 按 钮 (左上 方 ) 得 到 图 10-8a 所 示 的 一 列 过 滤器 。 实 际 上 ， 用 户 得 
到 的 是 一 个 折合 起 来 的 版 本 ， 单 击 其 中 的 箭头 可 展开 它 的 内 容 。 我 们 会 描述 如 何 利 用 一 个 简 
单 的 过 滤器 从 一 个 数据 集中 删除 指定 的 属性 ， 换 名 话说， 进行 手动 属性 选择 。 通 过 在 复 选 杠 
中 打 勾 ， 然 后 单 击 Remove (删除 ) 按钮 来 选择 相关 属性 的 方式 可 以 更 加 容易 地 取得 同样 效果 。 
无 论 以 何 种 方式 ， 我 们 会 用 一 个 范例 明白 无 误 地 描述 同样 的 过 滤器 操作 过 程 。 
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Remove 是 一 个 无 指导 属性 过 滤器 ， 需 要 进一步 向 下 拉动 页 面 才 能 看 到 它 。 如 果 被 选中 ， 
它 就 会 出 现在 Choose 按 钮 的 旁边 ， 与 其 同时 出 现 的 还 有 它 的 参数 值 ， 就 图 中 的 例子 来 说 ， 横 
栏 中 只 是 简单 地 显示 “Remove”。 单 击 该 过 滤器 横 栏 会 弹出 一 个 通用 对 象 编辑 器 ， 通 过 该 编 
辑 器 用 户 可 检查 并 修改 过 滤器 的 属性 。( 用 户 在 前 面 的 章节 中 进行 过 类 似 的 操作 ， 即 在 图 
10-4b 中 单 击 748 横 栏 ， 打 开 J4.8 分 类 器 的 对 象 编辑 器 。) Remove 过 滤器 的 对 象 编辑 器 如 图 10- 
8b 所 示 。 学 习 如 何 使 用 该 编辑 器 ， 单 击 More 显 示 如 图 10-8c 所 示 信 息 。 由 图 中 可 知 ， 过 滤器 将 
部 分 属性 从 数据 集中 删除 。attributeIndices 选 项 指明 了 属性 的 范围 ， 另 一 个 选项 
invertSelection 则 确定 过 滤器 是 选 定 这 些 属性 还 是 删除 它们 。 这 两 个 选项 在 对 象 编辑 器 中 (图 
10-8b) 分 别 显示 在 各 自 的 框 中 ， 实 际 上 ， 我 们 已 经 将 它们 设 定 为 1.2 ( 即 属性 1 和 2， 相 对 应 的 
属性 名 字 为 outlook 和 temperature) 和 False ( 即 删除 而 不 是 保留 它们 )。 单 击 OK 使 这 些 选 项 生 
效 并 关闭 对 话 框 。 请 注意 ， 此 时 Choose 按 钮 旁 的 文字 变 成 了 Remove-R1,2。 在 Remove 过 滤器 
的 命令 行 版 本 中 ，-R 选 项 用 来 指明 哪些 属性 被 删除 。 设 置 完 一 个 对 象 后 ， 再 审视 一 饥 探索 者 
所 设 定 的 最 终 将 要 得 出 的 命令 行程 序 总 是 有 益 无 害 的 。 









b) 对 象 编辑 器 


c) 更 多 信息 ( 单 击 More ) 
图 10-8 选择 过 滤器 





#10¥% Explorer% & 255 


单 击 4pply (图 10-3b 右 侧 ) 即 可 应 用 该 过 滤器 。 随 即 出 现 屏幕 如 图 10-9 所 示 。 该 图 与 图 
10-3b 的 唯一 区 别 是 图 10-9 只 有 三 个 属性 ， 湿 度 ， 刮 风 和 玩 。 此 时 靠近 屏幕 上 方 的 一 排 按钮 中 
的 第 四 个 按钮 变 为 可 选 。 mao 会 撤销 过 滤器 的 动作 并 恢复 原来 的 数据 集 。 当 用 户 用 不 同 的 过 
滤器 做 实验 时 ， 这 个 功能 会 很 有 用 。 




















图 10-9 删除 两 个 属性 后 的 天 气 数据 


第 一 个 属性 湿度 是 选中 的 ， 并 在 面板 右 侧 对 它 的 值 做 了 总 结 。 作 为 一 个 数值 性 属性 ， 这 里 
显示 的 是 它 的 最 小 值 ， 最 大 值 ， 平 均值 和 标准 偏差 。 在 这 些 值 的 下 面 是 一 个 柱状 图 ， 它 显示 的 
是 属性 玩 的 分 布 情况 。 不 幸 的 是 这 个 柱状 图 简单 的 可 怜 ， 因 为 这 个 属性 的 值 的 变化 过 于 单调 以 
至 于 所 显示 的 只 是 两 个 同等 宽度 的 方形 。 现 实 当中 的 数据 集会 产生 内 容 更 丰富 的 柱状 图 。 


10.2.2 训练 和 测试 学 习 方 案 


用 户 可 通过 分 类 面板 来 训练 和 测试 用 于 分 类 或 回归 的 学 习 方案 。 第 10.1 节 讲解 了 如 何 解读 
一 个 决策 树 学 习 器 的 输出 结果 ， 给 出 了 由 评估 模块 自动 产生 的 性 能 指数 。 这 样 的 解读 对 所 有 
用 来 预测 属于 某 一 范畴 的 类 的 模型 都 是 一 样 的 。 其 次 ， 在 评估 数值 预测 的 模型 时 ，Weka 产 生 
的 是 一 组 不 同 的 性 能 衡量 标准 。 

举例 来 说 ， 图 10-10a 的 表 1-5 中 的 CPU 性 能 数据 集 已 载 人 Weka。 右 下 角 显 示 的 是 第 一 个 属 
性 vendor 值 的 柱状 图 。 在 图 10-10b 中 ， 进 入 分 类 面板 ， 单 击 左 上 方 的 Choose 按 钮 ， 打 开 如 图 
10-4a 所 示 的 等 级 式 菜单 中 的 树 的 部 分 ， 找 到 M5P， 然 后 单 击 Siart， 即 可 将 模型 树 归纳 器 M5' 
选 定 为 分 类 器 。 通过 把 具有 共同 功能 性 的 项 目 组 合 起 来 形成 的 等 级 式 结构 有 助 于 快速 发 现 具 
体 的 分 类 器 。 

图 10-11 给 出 了 输出 结果 。 修 剪 过 的 模型 树 只 是 一 个 简单 的 ， 根据 属性 MMAX 进 行 分 割 的 
决策 树桩 (decision stump )， 再 加 上 分 别 对 应 着 一 个 叶 的 两 个 线性 模型 。 两 个 模型 都 涉及 到 -- 
个 名 词性 属性 vendor， 以 及 一 些 数 值 性 属性 。 表达 式 vendor=adviser, sperry, amdahl 可 做 如 下 
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解读 : 如 果 vendor 是 adviser，sperry 或 amdahl 中 的 一 个 ， 就 替换 1， 否 则 就 替换 0。 模 型 树 描述 
的 后 面 是 几 个 衡量 该 模型 性 能 的 指标 。 由 图 10-10b 中 的 10 折 交叉 验证 ( 非 分 层 的 ， 因 为 对 于 
数值 预测 毫 无 意义 ) 测试 选项 得 出 的 。 第 5.8 节 ( 表 5-8) 解释 了 不 同 测量 方式 的 含义 。 











图 10-10 用 M5' 处 理 CPU 性 能 数据 


普通 线性 回归 (第 4.6 节 )， 是 另外 一 种 用 于 数值 预测 的 方案 ， 可 在 图 10-4a 菜 单 中 的 功能 
部 分 的 线性 回归 类 别 下 找到 。 它 只 建立 一 个 单独 的 线性 回归 模型 而 不 是 图 10-11 中 见 到 的 两 
个 ; 当然 ， 这 个 模型 的 性 能 也 要 差 一 些 。 

要 想 对 它们 各 自 的 性 能 做 个 比较 ， 我 们 把 它们 所 建立 的 方案 的 误差 可 视 化 ， 就 像 我 们 在 图 10- 
6b 中 对 刻 尾 花 数据 集 所 进行 的 操作 一 样 。 右 键 单 击 历史 列表 中 的 项 目 ， 然 后 选择 Visualize classifier 
errors (可 视 化 分 类 器 误差 ) 得 到 如 图 10-12 所 示 的 二 维 数据 点 阵 。 图 中 的 点 呈现 不 同 的 颜色 ， 分 
别 代表 不 同 的 类 ， 但 对 图 中 的 例子 来 说 ， 因 为 类 是 数值 性 的 ， 所 以 颜色 变化 是 连续 的 。 在 图 10-12 
中 ，X 坐 标 轴 选 择 了 属性 vendor，Y 坐 标 轴 是 所 选 实例 的 数量 ， 这 样 选 择 坐 标 会 使 这 些 点 的 分 布 较 
好 。 每 个 数据 点 都 标示 为 一 个 交叉 符 ， 交 叉 符 的 大 小 代表 了 该 实例 的 误差 的 绝对 值 。 与 图 10-12b 
(线性 回归 ) 中 的 交叉 符 相 比较 ， 图 10-12a (MS') 中 的 交叉 符 尺寸 较 小 ， 这 表明 M5' 更 有 优势 。 
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Scheme: weka.classifiers.trees.M5P -M 4.0 
Relation: cpu 

Instances: 209 

Attributes: 8 


CHMIN 
CHMAX 
class 
Test mode: 10-fold cross-validation 


=== Classifier model (full training set) === 


MS pruned model tree: 
(using smoothed linear models) 


MMAX <= 14000 : LM1 (141/4.178%) 
MMAX > 14000 : LM2 (68/50.073%) 


LM num: 1 
class = 
-2.0542 * 
vendor=honeywell, ipl, ibm, cdc, ner, basf , gould, siemens, nas, adviser, sperry, amdahl 
+ 5.4303 * vendor=adviser, sperry, amdahi 
.7791 * vendor=amdahl 
.0064 * MYCT 
-0016 * MMIN 
.0034 * MMAX 
.5524 * CACH 
.1411 * CHMIN 
.0945 * CHMAX 
.1463 


+ 


+ 


+ 


+ 


b Or OOO ou 


LM num: 2 

class = 
-57.3649 * 
vendor=honeywell, ipl, ibm, cdc, ncr, basf, gould, siemens, nas, adviser, sperry,amdahl 
+ 46.1469 * vendor=adviser, sperry,amdah] 
- 58.0762 * vendorsamdahl 

.012 * MYCT 

.0162 * MMIN 

.0086 * MMAX 

.8332 * CACH 

.2665 * CHMIN 

+ 1.2741 * CHMAX 

- 107.243 


+ 


+ 


+ 


+ 


rer OO 0 oo 





Number of Rules : 2 


图 10-11 用 于 数值 性 预测 的 M5' 程 序 的 输出 结果 


257 





258 =f =H WekahBFIFS 






=== Cross-validation === 
=== Summary === 


Correlation coefficient 
Mean absolute error 

Root mean squared error 
Relative absolute error 
Root relative squared error 
Total Number of Instances 












Time taken to build model: 1.37 seconds 









图 10-11 (8%) 


b) 由 线性 回归 得 到 
图 10-12 可 视 化 误差 
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10.2.3 自己 动手 : 用 户 分 类 器 


用 户 分 类 器 (在 第 3.2 节 的 结尾 部 分 提 到 过 ) 使 用 户 得 以 互动 式 地 建立 它们 自己 的 分 类 器 。 
用 户 分 类 器 放 在 图 10-4a 中 的 等 级 式 菜 单 里 的 树 的 部 分 ， 在 UserClassifier 的 下 面 。 我 们 用 - -个 
新 问题 来 演示 它 的 操作 ， 根 据 平 均 密度 ， 色 调 ， 尺 寸 ， 位 置 和 不 同 的 简单 质地 特征 等 属性 ， 
将 视觉 图 像 数据 划分 成 类 似 于 grass，sky ，foliage，brick 和 cement ( 草 ， 天 空 ， 树 叶 ， 砖 和 水 
Ye) 等 类 。Weka 发 行 配套 包 提 供 一 个 称 作 segment-challenge.arff 的 训练 数据 文件 。 该 文件 载 
入 后 ， 再 选择 用 户 分 类 器 。 在 Classi 及 面板 上 ， 选 择 一 个 名 字 叫 segment-test.arf] 的 特别 训练 测 
试 集 作为 Supplied test set (提供 的 测试 集 ) 用 来 评估 。 当 用 户 必须 手动 为 每 个 折 构 建 分 类 器 时 ， 
交叉 验证 评估 是 做 不 到 的 。 

单 击 Start 后 ，-- 个 新 窗口 出 现 ， 此 时 Weka 等 待 用 户 建 并 分 类 器 。Tree Visualizer ( 树 可 视 
化 器 ) 和 Dara Visualizer (数据 可 视 化 器 ) 标签 用 于 在 不 同 的 查看 方式 间 切 换 。 前 者 显示 的 是 
分 类 树 的 当前 状态 ， 并 且 每 个 节点 给 出 了 该 节点 上 属于 每 一 类 的 实例 数 。 其 目的 是 为 了 得 到 
一 个 叶 节 点 越 纯 越 好 的 树 。 一 开始 当然 只 有 一 个 节点 ， 根 ， 所 有 数据 都 包含 在 其 中 。 然 后 切 
换 到 Date Wasualicer， 生 成 一 个 分 割 。 这 样 就 得 到 了 我 们 在 图 10-6b 中 通过 莹 尾 花 数 据 集 和 图 
10-12 中 通过 CPU 性 能 数据 看 到 的 同样 的 二 维 点 阵 。 像 前 面 一 样 ， 分 别 为 X 和 Y 坐 标 选择 属性 。 
在 这 里 ， 用 来 挑选 的 标准 是 找 出 一 个 能 使 类 与 类 分 离 的 尽 可 能 干净 的 X 和 Y 的 组 合 。 图 10-13a 
给 出 了 一 个 好 选择 : 区 域 - 质心 - 行 作为 X 及 强度 - 平均 值 作为 Y。 

找 出 一 个 好 的 分 离 后 ， 用 户 必 须 在 图 表 中 指定 一 个 区 域 。 在 Y 轴 选择 器 下 方 的 下 拉 菜 单 中 
at FREY A. Select Instance (选择 实例 ) 确认 一 个 具体 的 实例 。Rectangle (WE, TLS 
10-13a) 使 用 户 得 以 在 图 表 上 拖 出 一 个 矩形 。 利 用 Polygon 和 Polyline (多 边 形 和 多 边线 )， 用 
户 可 构建 任意 形状 的 多 边 形 或 画 任意 形状 的 多 边线 ( 左 键 单 击 添加 一 个 角 的 顶点 ， 右 键 单 击 
完成 操作 ) 。 一 个 区 域 一 旦 被 选 定 ， 就 变 成 灰色 。 图 10-13a 中 ， 用 户 定义 了 一 个 第 形 。Submit 
按钮 会 在 树 中 创建 两 个 新 节点 ， 一 个 节点 含有 那些 选 定 的 实例 ， 另 外 一 个 包含 全 部 其 余 实例 。 
Ciear 会 清除 所 做 的 选择 ; Save 将 当前 树 节 点 上 的 实例 以 ARFF 文 件 的 方式 存储 起 来 。 

此 时 ， 树 可 视 化 器 在 图 10-13b 中 显示 了 所 构建 的 树 。 其 中 一 个 节点 ( 左 节 点 ) 对 类 sky 来 
说 是 纯 的 (pure) ， 但 另 一 个 〈 右 节点 ) 则 是 混合 节点 ， 需 进一步 分 割 。 单 击 哪 个 节点 ， 则 整 
个 数据 集中 与 该 节点 相关 联 的 子 集 (subset) 就 会 被 数据 可 视 化 器 可 视 化 。 继 续 增 加 节点 ， 直 
到 用 户 对 所 得 结果 满意 ， 即 ， 几 乎 所 有 节点 都 是 纯 的 为 止 。 然 后 在 树 可 视 化 器 的 空白 处 右键 
单 击 ， 选 择 4ccept the Tree (接受 此 树 )。Weka 用 测试 集 评估 用 户 的 树 并 输出 性 能 统计 数据 
(对 于 所 举例 子 、80% 的 结果 是 好 的 )。 

使 用 手动 方式 构建 树 非常 繁琐 。 但 Weka 可 以 在 任何 节点 下 面 构建 子 树 ， 从 而 替 用 户 完成 
作业 ， 只 需 右键 单 击 该 节点 即 可 。 


10.2.4 使 用 元 学 习 器 


元 学 习 器 (第 7.5 节 ) 可 将 简单 的 分 类 器 变 成 功能 更 强大 的 学 习 器 。 例 如 ， 要 想 提升 探索 B89 
者 的 决策 树桩 的 性 能 ,打开 Class 态 面板 ， 在 等 级 式 菜单 中 的 meta 部 分 选择 4daboosrM7 分 类 器 。 
当 用 户 双 击 该 分 类 器 对 其 进行 设置 时 ， 图 10-14 所 示 的 对 象 编辑 器 会 出 现 。 这 个 分 类 器 有 自己 
的 分 类 器 域 ， 我 们 设 为 DecisionStump ( 见 图 )。 这 个 域 设 定 法 本 身 也 可 以 通过 双击 的 方式 进行 
设置 (本 例 是 个 例外 ，DecisionStump 碰 巧 没有 可 编辑 的 属性 )。 单 击 OK 回 到 Classi 妈 主 面板 ， 
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单 击 Start 可 尝试 着 将 决策 树桩 的 性 能 提升 至 最 高 10 倍 。 最 终 的 结果 是 萝 尾 花 数 据 的 150 个 实例 
中 只 有 7 个 被 错误 标志 。 考 虑 到 这 仅仅 是 一 个 初级 决策 树桩 以 及 如 此 少 的 提升 循环 次 数 ， 它 的 


性 能 的 确 不 错 。 
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a) 数据 可 视 化 器 





b) 树 可 视 化 器 
图 10-13 在 划分 过 的 数据 上 运行 用 户 分 类 器 


10.2.5 聚 类 和 关联 规则 


通过 Clxster 和 4ssociate 面 板 实现 聚 类 算法 〈 第 6.6 节 ) 及 启动 用 于 找 出 关联 规则 的 方法 
(第 4.5 节 )。 在 对 数据 集 进 行 育 类 时 ，Weka 会 显示 聚 类 的 数量 和 每 个 聚 类 所 含 的 实例 数 。 对 某 
些 算法 来 说 ， 聚 类 的 数量 可 在 对 象 编辑 器 中 通过 设 定 参数 的 方式 指定 。 如 果 使 用 的 是 概率 性 
育 类 方式 ，Weka 测 量 的 是 对 应 训练 数据 的 聚 类 的 对 数 似 然 : 这 个 对 数 似 然 越 大 ， 说 明 所 建立 
的 模型 与 数据 拟 合 得 越 好 。 增 加 亭 类 的 数量 一 般 来 说 会 增加 对 数 似 然 ， 但 会 导致 过 度 拟 合 。 





#10% Explorer mH 261 





10-14 设置 一 个 用 于 提升 决策 树 树桩 性 能 的 元 学 习 器 


Cluster 面 板 上 的 操纵 元 件 与 Classi 有 面板 上 的 相 类 似 。 用 户 可 指定 一 些 同样 的 评估 方法 ， 使 
用 训练 集 ， 提 供 测 试 集 ， 百 分 比分 割 (后 两 项 用 于 对 数 似 然 )。 更 进 一 层 的 手段 ， 类 对 应 聚 类 的 
评估 ， 它 比较 的 是 所 选 定 的 聚 类 与 数据 中 预先 指定 的 类 匹配 程度 的 好 坏 。 用 户 选 择 二 个 属性 作 
为 “正确 ”的 类 ( 它 必 须 是 名 词性 的 )。 对 数据 进行 聚 类 后 ，Weka 会 确定 每 个 聚 类 中 的 多 数 类 
并 给 出 一 个 混淆 矩阵 ， 表 明 如 果 使 用 聚 类 而 不 是 用 正确 的 类 会 有 多 少 误差 。 如 果 数 据 集中 有 一 
个 属性 是 类 属性 ， 用 户 可 在 聚 类 的 过 程 中 通过 在 一 个 含有 这 些 属 性 的 下 拉 菜 单 中 将 其 选 定 的 方 
式 把 它 忽 略 掉 ， 然 后 观察 这 些 聚 类 与 实际 类 值 的 对 应 程度 。 最 后 ,用户 可 选择 是 否 将 这 些 聚 类 
存储 起 来 用 于 可 视 化 。 选 择 不 要 存储 的 唯一 理由 是 为 了 节省 空间 。 对 于 分 类 器 来 说 ， 右 键 单 击 
结果 列表 使 其 可 视 化 的 好 处 是 用 户 可 查看 类 似 于 图 10-6b 中 的 二 维 散 点 图 。 如 果 用 户 决定 使 用 类 
对 应 聚 类 的 评估 ， 类 的 指定 误差 也 会 列 出 来 。 对 于 Cobweb 聚 类 方案 ， 用 户 也 可 以 将 树 可 视 化 。 

4ssociate 面 板 要 比 Class 态 或 Cluster 面 板 简单 。Weka 中 有 三 种 算法 可 用 来 决定 关联 规则 ， 
但 没有 手段 评估 这 些 规则 。 图 10-15 给 出 了 利用 Apriori 程 序 从 天 气 数据 的 名 词性 版 本 中 寻找 关 
联 规则 (第 4.5 节 所 描述 的 ) 的 输出 结果 。 尽 管 数据 比较 简单 ， 还 是 找到 了 一 些 规则 。 箭 头 前 
面 的 数字 表示 的 是 箭头 前 面 的 前 提 条 件 为 真 的 实例 数 ， 箭 头 后 面 的 数字 代表 箭头 后 面 的 结论 












- Outlook=overcast 4 ==> play=yes 4 conf: (1) 
. temperature=cool 4 ==> humidity=normal 4 conf: (1) 

- humidity=normal windy=FALSE 4 ==> Play=yes 4 conf: (1) 

+ Outlook=sunny play=no 3 ==> humidity=high 3 conf: (1) 

- outlook=sunny humidity=high 3 ==> play=no 3 conf: (1) 

- outlook=rainy play=yes 3 ==> windy=FALSE 3 conf: (1) 

* outlook=rainy windy=FALSE 3 ==> play=yes 3 conf : (1) 

. temperature=cool play=yes 3 ==> humidity=normal 3 conf: (1) 

* outlook=sunny temperature=hot 2 ==> humidity=high 2 conf: (1) 
0. temperature=hot play=no 2 ==> outlook=sunny 2 conf : (1) 


On 人 wD pp 





rPwowrn 





图 10-15 关联 规则 Apriori 程 序 的 输出 结果 
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也 为 真 的 实例 数 ; 置信 度 (括号 中 的 ) 是 二 者 的 比 。 在 默认 条 件 下 ， 共 发 现 了 10 条 规则 : 用 
户 可 通过 对 象 编辑 器 修改 rumRules 从 而 得 到 更 多 规则 。 


10.2.6 属性 选择 

有 几 种 侦 性 选择 的 方法 可 通过 Selecr attributes (选择 属性 ) 面板 实现 。 正 如 在 第 7.1 节 中 解 
释 过 的 、 这 会 涉及 到 一 个 属性 评估 器 和 一 个 搜索 方法 。 二 者 都 是 通过 -- 般 途径 选 定 ， 且 在 对 象 
编辑 器 中 设置 。 用 户 还 必须 决定 哪个 属性 作为 类 属性 。 属 性 选择 可 通过 整个 训练 集 或 通过 交叉 
仿 证 做 出 。 在 后 -… 种 情况 下 ， 每 -- 拆 的 交叉 验证 是 分 开 完成 的 ， 并 且 输 出 结果 会 显示 出 每 个 属 
性 被 选中 了 多 少 次 ， 即 ， 折 的 数量 。 所 得 结果 存储 在 历史 列表 中 。 当 用 户 右 键 单 击 历史 列表 中 
的 条 自 时 ， 可 将 与 被 选中 的 属性 相对 应 的 数据 集 可 视 化 (选择 Visualize reduced data). 


10.2.7 可 视 化 


Visualize 面 板 呆 帮助 用 户 可 视 化 -个 数据 集 ， 这 里 指 的 不 是 一 次 分 类 或 一 个 察 类 模型 的 结 
果 ， 而 是 数据 集 本 身 。 它 显示 的 是 每 对 属性 的 一 个 二 维 散 点 图 。 图 10-16a 给 出 了 况 尾 花 数 据 
集 的 可 视 化 结果 。 用 户 可 选择 一 个 属性 ， 通 常 是 所 选 定 的 类 属性 ， 用 面板 底部 的 控制 元 件 为 
代表 数据 的 点 加 上 上 颜色。 如果 属 性 是 名 词性 的 ， 颜 色 是 离散 的 ; 如 果 是 数值 性 的 ， 则 色谱 从 
HE (BJE) 到 橙色 (BAI) 呈 连 续 分 布 。 没 有 类 值 的 数据 的 点 用 黑色 表示 。 用 户 可 改 
变 每 个 点 阵 的 大 小 和 点 阵 中 点 的 大 小 ， 以 及 抖动 度 。 拌 动 是 应 用 于 X 和 Y 坐 标 值 的 随机 位 移 ， 
目的 是 使 互相 重 每 的 点 分 开 。 如 果 没 有 抖动 ， 位 于 同 -个 数据 点 上 的 上 千 个 实例 看 起 来 就 像 
一 个 。 用 户 可 选择 - 定 的 属性 来 碱 小 这 个 点 图 矩阵 的 尺寸 ， 并 对 数据 进行 子 采 样 以 提高 效率 。 
在 面板 上 所 做 的 改动 只 有 点 击 Update 按 钮 后 才能 生效 。 

单 击 和 矩阵 中 的 任何 -个 散 点 图 使 其 放大 。 例 如 ， 单 击 左 上 角 的 点 图 得 到 如 图 10-16b 所 示 
面板 。 用 户 可 放大 该 面板 中 的 任何 区 域 ， 方 法 是 在 右上 方 的 菜单 中 选择 Rectangle ， 并 按照 图 
中 显示 的 那样 拉 出 -个 矩形 。 左 上 方 的 Submit (提交 ) 按钮 会 按照 比例 在 查看 区 域 中 重新 调 
整 这 个 矩形 框 。 

10.3 过 滤 算 法 

现在 我 们 来 深入 探讨 Weka 中 实现 的 各 种 过 滤 算 法 。 在 探索 者 中 可 运用 这 些 算法 ， 在 第 11、 
12 章 将 描述 的 知识 流 和 实验 者 界面 中 也 可 以 。 所 有 的 过 滤器 都 对 输入 的 数据 集 进 行 某 种 转换 。 
当 - 一 个 过 滤器 通过 Choose 按 钮 选中 时 ， 它 的 名 字 会 出 现在 按钮 装 思 的 横 栏 中 。 单 击 这 个 横 栏 ， 
弹出 一 个 通用 对 象 编辑 器 确定 该 横 栏 的 属性 。 横 栏 中 出 现 的 是 该 过 滤器 的 命令 行 版 本 ， 减 号 
后 面 的 字母 指定 该 过 滤器 的 参数 。 这 是 一 个 学 习 如 何 直接 使 用 Weka 命 令 的 好 方法 。 

过 滤器 有 两 种 :有 指导 (supervised) 和 无 指导 (unsupervised) (第 7.2 节 )。 这 个 似乎 不 
经 意 的 区 别 实际 上 却 掩 盖 了 一 个 根本 课题 。 过 滤器 通常 应 用 于 训练 数据 集 ， 再 应 用 于 测试 文 
件 。 如 果 过 恋 器 是 有 指导 的 ， 比 方 说 ， 假 如 它 使 用 类 值 以 取得 好 的 离散 区 间 ， 那 么 将 该 过 小 
器 应 用 于 寞 试 数据 则 会 对 所 得 结果 造成 偏差 。 应 用 于 测试 数据 的 必须 是 由 训练 数据 取得 的 离 
散 区 间 。 当 使 用 有 指导 过 症 器 时 ， 用 户 必须 小 心 确保 公正 地 评估 所 得 结果 。 使 用 无 指导 过 滤 
器 则 不 存在 这 样 的 问题 。 
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我 们 会 分 别 探讨 Weka 的 有 指导 与 无 指导 过 滤 法 。 在 每 一 种 过 滤 法 中 ， 又 可 进一步 区 分 为 
用 于 数据 集中 属性 的 属性 过 滤器 和 用 于 实例 的 实例 过 滤器 。 要 进一步 了 解 具 体 的 过 外 器 ， 在 
Weka 探 索 者 中 将 其 选中 ， 并 研究 与 其 相关 联 的 对 象 编辑 器 ， 定 义 过 滤器 的 功能 及 各 种 参数 。 


10.3.1 无 指导 属性 过 滤器 


表 10-1 列 出 了 Weka 的 无 指导 过 滤器 。 其 中 的 很 多 功能 在 第 7.3 节 中 已 做 过 介绍 。 


表 10-1 无 指导 属性 过 滤器 











名 OR 功 能 

Add 添加 一 个 新 属性 ， 该 属性 的 值 皆 标 记 为 残缺 

AddCluster 添加 一 个 新 的 名 词性 属性 ， 该 属性 代表 由 所 给 聚 类 算法 指定 到 每 
一 个 实例 的 聚 类 

AddExpression 通过 将 一 个 确定 的 数学 函数 应 用 到 现 有 属性 ， 生 成 -个 新 的 属性 

AddNoise 修改 一 个 所 给 的 名 词性 属性 的 值 的 白 分 比 

ClusterMembership 用 一 个 豪 类 产生 聚 类 会 员 值 ， 再 用 这 些 值 形成 新 属性 

Copy 复制 数据 集中 一 定 范围 内 的 属性 

Discretize 将 数值 性 属性 转换 成 名 词性 属性 : 确定 要 转换 的 属性 ， 箱 (bin) 
的 数量 ， 是 否 优 化 箱 的 数量 ， 输 出 二 进 制 属性 ， 使 用 等 宽 (默认 ) 
或 等 频 进行 装 箱 

FirstOrder 将 一 个 第 一 顺序 差 值 运算 应 用 于 一 定 范围 内 的 属性 


MakeIndicator 


MergeTwoValues 
NominalToBinary 


Normalize 
NumericToBinary 
NumericTransform 
Obfuscate 


PKIDiscretize 


RandomProjection 
Remove 
RemoveType 


RemoveUseless 


ReplaceMissing Values 


Standardize 
StringToNominal 
StringToWord Vector 


Swap Values 


TimeSeriesDelta 


TimeSeriesTranslate 


He T&L HERE BE — AR (boolean) 属性 。 将 1 指定 给 具 
A EVER ARPES, CME EO. RUE, ARE 
性 是 按照 数值 进行 编码 的 

合并 所 给 属性 的 旺 个 值 : 全 定 要 合并 的 二 个 值 的 索引 

将 名 词性 属性 变 成 几 个 “ 进 制 属性 ， 每 个 一 进 制 属 性 对 应 该 名 词 
性 属性 的 … 个 值 

将 数据 集中 所 有 数值 性 的 值 按 比 例 转换 到 [0. 71 区间 

将 所 有 数值 性 属性 转换 成 一 进 制 属性 : 非 零 值 变 成 

用 Java 国 数 转换 数值 性 属性 

通过 对 关系 ， 所 有 属性 的 名 字 ， 及 名 词性 和 字符 串 属 性 值 进行 重 
命名 从 而 增加 数据 集 处 理 难 度 

用 等 频 区 闻 装 箱 法 离散 数值 性 属性 ， 其 中 ， 箱 的 数量 等 于 属 性 值 
(不 包括 残缺 值 ) 的 数量 的 平方 根 

用 随机 和 矩阵 将 数据 投影 到 低 维 子 空间 

删除 属性 

删除 某 种 属性 〈 名 词性 ， 数 值 性 ， 字 符 串 ， 或 日 期 ) 

删除 常量 属性 ， 以 及 变化 幅度 过 大 的 名 词性 属性 

将 所 有 名 词性 和 数值 性 属性 的 残缺 值 苦 换 成 训练 数据 的 众 数 和 平 
均值 (modes 和 means ) 

将 所 有 数值 性 属性 标准 化 为 零 平 均值 及 单位 变量 

将 字符 串 属性 转换 为 名 词性 属性 

将 字符 串 属性 转换 为 代表 词 的 出 现 频率 的 向 最: 用 户 可 选择 分 隔 
符 、 目 可 选 范围 很 广 

将 -个 属性 的 两 个 值 对 调 . 

494 A K AY R PEE ke AT SA (或 将 来 ) 的 实例 的 值 
的 差 

将 当前 实例 的 属性 值 棱 换 成 与 以 前 (或 将 来 ) 的 实例 的 等 同 值 
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添加 和 删除 属性 

Add 在 指定 位 置 插入 一 个 属性 ， 该 属性 的 值 已 声明 对 所 有 实例 皆 为 残缺 。 使 用 通用 对 象 编 
辑 器 确定 属性 的 名 字 ， 在 编辑 器 中 会 出 现 -- 串 属性 及 属性 的 可 能 的 值 ( 对 名 词性 属性 来 说 )。 
Copy 复 制 现 有 的 属性 ， 以 便当 用 户 试验 可 和 覆盖 属性 值 的 过 滤器 时 可 以 将 这 些 属性 值 保存 下 来 。 
利用 一 个 表达 式 则 可 将 几 个 属性 一 起 进行 复制 ， 例 如 ，1-3 指 前 三 个 属性 ， 或 者 first-3,5,9-last 
指 属性 1，2，3，5，9，10，11，12，…。 这 些 选 项 也 可 表示 相反 的 含义 ， 即 只 对 那些 未 在 表 
达 式 中 指明 的 属性 起 作用 。 很 多 过 滤器 都 具备 这 些 特色 。 

Remove 前 面 已 计 论 过 。 类 似 的 过 滤器 有 RemoveType ， 删 除 一 个 指定 种 类 (名词 性， 数值 
性 ， 字 符 串 ， 或 日 期 ) 的 所 有 属性 ， 和 RemoveUseless ， 删 除 常量 属性 和 那些 对 几乎 所 有 实例 
来 说 其 值 都 不 相同 的 名 词性 属性 。 用 户 可 通过 确定 不 相同 的 值 的 数量 作为 值 的 总 数 的 百分比 
来 决定 允许 偏差 , 决定 是 否 删 除 一 个 属性 。 如 果 Preprocess 面 板 上 的 菜单 用 来 设 定 一 个 类 属性 ， 
一 些 无 指导 属性 过 滤器 运行 起 来 会 不 同 。 例 如 ，RemoveType 和 RemoveUseless 两 者 都 会 跳 过 类 
属性 。 

4ddClusrer 将 一 种 聚 类 算法 应 用 于 数据 ， 然 后 再 将 数据 过 兰 。 用 户 通过 对 象 编辑 器 选择 聚 
类 算法 。 诊 类 器 的 设置 方式 与 过 滤器 一 样 (第 10.6 节 )。4ddCiusrer 对 象 编辑 器 通过 自身 的 
Choose 按 钮 用 来 选择 聚 类 器 ， 用 户 可 通过 单 击 按钮 旁 的 横 栏 得 到 另外 一 个 对 象 编辑 器 ， 并 在 
其 面板 上 对 该 察 类 器 进行 配置 ， 该 面板 必须 填写 完整 后 才能 回 到 AddCluster 对 象 编辑 器 。 比 起 
在 书 中 阅读 这 些 说 明 ， 也 许 用 户 在 实践 中 亲手 操作 -- 遍 会 更 容易 理解 。 不 论 怎 样 ， 一 旦 用 户 
选 定 - -个 聚 类 器 ，4ddCiuster 会 用 它 来 为 每 个 实例 指定 -个 聚 类 的 号 码 ， 作 为 该 实例 的 一 个 新 
属性 。 当 用 户 对 数据 进行 聚 类 时 ， 对 象 编辑 器 还 允许 用 户 忽略 -- 些 属性 ， 如 前 面谈 到 Copy 时 
所 描述 过 的 。 我 们 在 描述 过 滤器 对 象 编辑 器 时 也 探讨 过 ，ClusterMembership 利 用 一 个 聚 类 器 
产生 会 员 值 。 对 每 个 实例 来 说 ， 都 有 一 个 以 这 些 会 员 值 为 属性 的 新 版 本 实例 生成 。 如 果 设 定 
了 类 属性 ， 则 对 类 属性 不 作 修 改 。 . 

AddExpression 通 过 将 一 个 数学 限 数 应 用 于 数值 性 属性 而 生成 一 个 新 的 属性 。 表 达 式 可 含 
有 属性 索引 和 常量 ， 四 则 运算 符 + ，- ，、*，/， 和 ^; 函数 log 和 exp，abs 和 sqrt，flioor，ceil 和 
rint? ，sin，cos 和 tan; 以 及 括号 。 属 性 是 通过 加 前 缀 a 确 定 的 ， 例 如 a7 指 第 7 个 属性 。 以 下 是 
-个 表达 式 范 例 

al42*a5/og(a7*4.0) 

有 一个 纠 错 选项 可 用 来 将 新 属性 的 值 替 换 成 所 给 的 表达 式 的 后 组 解析 式 。 

与 4dqExpression 应 用 数学 函数 不 同 ，Numeric7Transform 所 做 的 是 通过 应 用 一 个 给 定 的 
Java 函 数 对 选 定 的 数值 性 属性 进行 任意 转换 。 任 何 函 数 都 可 以 ， 只 要 它 以 一 个 双 精 度 浮 点 数 
为 参数 并 返回 另外 一 个 双 精 度 浮 点 数 ， 例 如 ，java.lang.Math 中 的 sgrt()。 其 中 一 个 参数 是 Java 
中 类 的 名 字 ， 该 类 中 实现 了 这 个 函数 (必须 是 完全 符合 规范 的 名 字 ) ; 另外 一 个 参数 是 转换 
方法 本 身 的 名 字 。 l 

Normalize 将 数据 集中 所 有 数值 性 的 值 按 比例 转换 到 0 ~ 1 之 间 。Standardize 则 对 它们 进行 
转换 ， 取 得 零 平 均 和 单位 变量 。 二 者 都 跳 过 类 属性 ， 如 果 有 的 话 。 


O rinse BOR -个 数 进位 成 最 接近 的 整数 。 
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修改 值 

SwapValues 将 一 个 名 词性 属性 的 两 个 值 进行 对 换 。 两 个 值 的 先后 顺序 完全 是 表面 的 ， 对 
学 习 毫 无 影响 但是， 如 果 类 属性 被 选中 ， 则 改变 顺序 会 影响 混淆 和 矩阵 的 配置 。 
MergeTwoValues 将 一 个 名 词性 属性 的 两 个 值 合并 为 一 个 单独 的 类 别 。 新 值 的 名 字 由 原来 的 两 
个 值 串 接 而 成 ， 且 所 有 出 现 原来 的 两 个 值 的 地 方 都 替换 成 新 值 。 新 值 的 索引 是 原来 的 两 个 值 
的 索引 中 较 小 的 一 个 。 例 如 ， 如 果 用 户 合并 天 气 数据 中 属性 阴 睛 的 前 两 个 值 ， 其 中 共有 5 个 
sunny，4 个 overcast 和 5 个 rainy 实 例 ， 新 的 阴 睛 属性 的 值 则 变 成 sunny-overcast 和 rainy; HKA 
9 个 sunny-overcast 实 例 再 加 上 原来 的 5 个 rainy 实 例 。 

处 理 残缺 值 的 一 个 办 法 是 在 应 用 学 习 方 案 前 将 它们 全 面 替换 。RepliaceMissingValues 将 每 
个 残缺 值 替换 成 数值 性 属性 值 的 平均 值 和 名 词性 属性 值 的 众 数 。 如 果 一 个 属性 被 设 为 类 ， 其 
残缺 值 不 做 任何 替换 。 

转换 

很 多 过 滤器 把 属性 从 一 种 形式 转换 成 另外 -种 。Discretize 使 用 等 宽 或 等 频 区 间 装 箱 靶 
(第 7.2 节 ) 离散 一 定 区 间 内 的 ， 通 过 正常 方式 指定 的 数值 性 属性 。 对 前 一 种 方法 来 说 ， 装 箱 
的 数量 可 通过 指定 ， 或 通过 使 用 留 一 交叉 验证 使 可 能 性 最 大 化 的 方式 来 自动 选 定 。 
PKIDiscretize 用 等 频 区 间 装 箱 法 离散 数值 性 属性 ， 其 中 装 箱 的 数量 是 值 (不 包括 残缺 值 ) 的 
数量 的 平方 根 。 这 两 个 过 滤器 都 跳 过 类 属性 。 

Makelndicator 可 将 一 个 名 词性 属性 变 成 … 个 二 进 制 的 指示 器 属性 ， 且 可 用 于 把 -一 个 多 类 
的 数据 集 变 成 几 个 二 类 的 数据 集 。 它 把 选 定 的 名 词性 属性 赫 换 成 -- 个 二 进 制 属 性 ， 对 每 个 实 
例 ， 如 果 该 属性 对 应 的 原始 值 存在 的 话 ， 所 选 名 词性 属性 的 值 设 为 1， 否 则 为 0。 新 属性 在 默 
认 条 件 下 声明 为 数值 性 属性 ， 但 也 可 以 声明 为 名 词性 的 。 

一 些 学 习 方 案 ， 如 支持 向 量 机 ， 仅 处 理 二 进 制 属性 。NominalToBinary 过 滤器 将 一 个 数据 
集中 所 有 的 具有 多 个 值 的 名 词性 属性 转换 成 二 进 制 属性 。 即 ， 以 一 对 一 的 简单 编码 方式 ， 将 
每 个 有 k 个 值 的 属性 以 x 个 二 进 制 属性 替换 。 原 本 就 是 二 进 制 的 属性 不 做 任何 改变 。 
NumericToBinary 把 所 有 数值 性 属性 转换 成 名 词性 二 进 制 属性 (如 果 是 类 属性 ， 则 不 做 转换 )。 
如 果 数 值 性 属性 的 值 是 零 ， 新 属性 也 是 零 ; 如 果 是 残缺 值 ， 新 属性 也 标记 为 残缺 ; 否则 ， 新 
属性 的 值 是 1。 这 些 过 滤器 同样 跳 过 类 属性 。 

FirstOrder 将 N 个 一 定 区 间 内 的 数值 性 属性 替换 成 N - 1 个 数值 性 属性 ， 新 属性 的 值 将 是 原 
来 实例 的 连续 顺 位 属性 值 的 差 。 举 例 说 明 ， 如 果 原 来 的 属性 值 是 3，2 和 1， 新 值 将 是 一 1 和 -1。 

字符 串 转换 

字符 串 属 性 的 值 的 数量 是 不 确定 的 。String7oNomaina! 将 字符 串 属 性 转换 成 具有 一 定数 量 
的 值 的 名 词性 属性 。 用 户 应 确保 所 有 将 要 出 现 于 法 在 的 测试 数据 中 的 字符 串 值 在 数据 集中 都 
有 所 体现 。 

StringToWordVector 生 成 代表 字符 串 中 每 个 词 出 现 的 频率 的 属性 。 这 组 词 即 这 些 新 生成 的 
属性 集 ， 是 由 原来 的 数据 集 决定 的 。 默 认 条 件 下 ， 每 个 词 都 变 成 一 个 属性 ， 其 值 为 1 或 0， 分 
别 表示 该 词 在 字符 串 中 出 现 与 否 。 新 属性 可 使 用 用 户 决 定 的 前 级 来 命名 ， 以 使 这 些 由 不 同 的 
字符 串 属 性 派生 来 的 属性 相互 区 分 开 来 。 

有 很 多 选项 可 影响 到 tokenization。 字 可 由 连续 的 字母 序列 形成 ， 或 按照 一 组 给 定 的 分 隔 
符 进行 分 离 。 在 加 入 字典 前 会 转换 成 小 写字 母 ， 或 干脆 忽略 掉 预 先 确定 的 所 有 英语 停止 词 
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(stopwords) 列表 中 的 词 。 在 前 x 个 按照 出 现 频率 排序 的 词 中 所 没有 的 词 会 被 删除 ( 如果 排 序 
时 在 第 个 位 置 出 现 并 列 , 保留 词 的 数量 比 k 上 略 多 一 点 儿 也 是 可 以 的 )。 如 果 指 定 了 一 个 类 属性 ， 
每 个 类 的 前 Kk 个 词 要 保留 。 每 个 词 属性 的 值 反 映 的 是 该 词 在 字符 串 中 是 否 出 现 ， 但 这 是 可 以 修 
改 的 。 一 个 词 在 字符 串 中 出 现 的 次 数 也 可 作为 属性 值 使 用 。 词 的 频率 可 被 正常 化 以 使 每 个 文 
本 的 属性 向 嫩 取 得 同样 的 欧 几 里 得 长 度 ， 该 长 度 不 可 是 1， 而 应 是 被 用 作 原 始 字符 串 属性 的 所 
有 文本 的 平均 长 度 ， 以 避免 出 现 非常 小 的 数字 。 另 外 一 种 方法 是 ， 词 出 现在 文本 j 中 的 频率 f; 
可 通过 log (14f,) 或 TF x IDF 测 量 (第 7.3 节 ) 进行 转换 。 

时 间 系 列 

有 了 两 个 过 滤器 可 处 理 时 间 系 列 数 据 。TimeSeriesTranslate 将 当前 实例 的 一 个 属性 (或 一 些 
属性 ) 的 值 替 换 成 其 他 〈 以 前 的 或 将 来 的 ) 实例 的 等 同 的 值 。TimeSeriesDelta 将 当前 实例 的 
属性 值 末 换 成 当前 值 和 其 他 实例 的 值 的 差 。 在 以 上 两 种 情况 下 ， 时 间 位 移 (time-shifted) 值 
末 知 的 实例 可 被 删除 、 或 用 残缺 值 代替 。 

随机 化 

其 他 属性 过 滤器 用 来 降低 (degrade ) 数据 的 质量 。4ddNoise 修 改 一 个 名 词性 属性 的 值 的 
入 分 比 。 残 缺 值 可 被 保留 ， 或 伴随 其 他 值 -一 起 修改 。Obfuscate 通 过 对 关系 ， 属 性 的 名 字 ， 和 
名 词性 及 字符 串 属 性 的 值 进行 重新 命名 来 隐匿 数据 。RandomProjection 用 随机 的 具有 单位 长 度 
的 列 的 甜 阵 将 数据 集 投影 到 低 维 子 空间 (第 7.3 节 )。 类 属性 不 包含 在 投影 中 。 


10.3.2 无 指导 实例 过 滤器 


Weka 的 实例 过 滤器 见 表 10-2， 会 影响 到 数据 集中 所 有 的 实例 ， 而 不 是 一 个 或 一 些 属性 的 
所 有 值 。 

随机 化 和 子 采样 

用 户 可 随机 化 数据 集中 的 实例 顺序 。Normalize 把 所 有 数值 性 的 属性 〈 不 包括 类 属性 ) 看 
作 一 -个 向 量 并 将 其 正常 化 为 一 个 给 定 的 长 度 。 用 户 可 指定 所 用 的 向 量 的 长 度 和 范 数 。 


表 10-2 无 指导 实例 过 滤器 





ao K H 能 
NonSparseToSparse FEAT AT KAER ARK, (982.449) 
Normalize FREE aE FF ke —- SET ER EREA -A EKE 
Randomize 随机 化 数据 集中 实例 的 脐 序 
RemoveFolds 输出 数据 集 的 一 个 指定 的 交叉 验证 的 折 
Remove Misclassified MIER ASS Hac HO Fae Oo) R 2B AC RE IED EO, ABR HLS 
RemovePercentage 对 个 数据 集 按照 -个 给 定 的 百分比 进行 删除 
RemoveRange 从 一 个 数据 集中 将 一 定 区 间 内 的 实例 删除 
RemoveWithValues 恋 除 具有 特定 属性 值 的 实例 
Resample 用 替代 式 采 样 法 .由 一个 数据 集 生成 一 个 随机 的 子 采 样 
SparseToNonSparse 将 所 有 输入 的 稀 朴 实例 转换 为 非 稀疏 格式 


有 许多 不 同 的 方法 可 产生 数据 的 子 集 。 用 Resample 通 过 赫 代 式 采 样 法 产生 -- A 
或 用 RemoveFolds 将 数据 分 割 为 给 定数 量 的 交叉 验证 的 折 并 降低 到 仅仅 一 个 折 。 如 果 给 定 -- 
随机 数 的 种 子 ， 则 可 对 数据 集 进行 随机 组 合 ， 然 后 再 抽取 子 集 。RemovePercentage 删 除 - 
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百分比 的 实例 ， 而 RemoveRange 删 除 一 个 特定 区 间 内 的 实例 数 。 要 想 删除 所 有 含有 某 些 特定 
的 名 词性 属性 值 的 实例 ， 或 者 对 于 数值 性 属性 来 说 ， 其 值 大 于 或 小 于 某 个 六 值 的 实例 ， 用 
RemoveWithValues。 上 默认 条 件 下 ， 呈 现 为 一 组 指定 名 词性 属性 的 值 (如 果 指 定 的 属性 是 名 词 
性 的 ) 中 的 一 个 值 的 所 有 实例 ， 或 其 属性 值 低 于 一 个 闪 值 (如 果 是 数值 性 属性 ) 的 所 有 实例 
都 会 被 删除 。 然 而 ， 以 上 吻合 标准 也 可 以 反 向 适用 。 

用 户 可 通过 将 一 个 分 类 方法 应 用 于 一 个 数据 集 来 删除 数据 集中 超出 合理 范畴 的 值 (确定 
分 类 方法 的 方式 与 上 面谈 到 AddCluster 时 确定 诊 类 方法 一 样 )， 并 使 用 RemoveMisclassifiea 删 
除 被 错误 分 类 的 实例 。 

稀疏 实例 

NonSparseToSparse 和 SparseToNonSparse 过 滤器 可 用 来 在 数据 集 的 正常 形式 与 CHIME 
式 ( 见 第 2.4 节 ) 之 间 进 行 转换 。 


10.3.3 有 指导 过 滤器 


与 无 指导 过 滤器 一 样 ， 有 指导 过 滤器 也 可 在 探索 者 的 Preprocess 面 板 上 找到 。 用 户 需 小 心 ， 
尽管 它们 看 上 去 像 是 预 处 理 操作 ， 但 实际 上 不 是 。 我 们 在 上 面谈 到 离散 的 时 候 提 到 了 到 这 一 
点 ， 测 试 数据 的 分 割 一 定 不 能 用 测试 数据 的 类 值 ， 因 为 这 些 类 值 是 假定 未 知 的 ， 而 且 一 般 来 
说 对 有 指导 过 滤器 也 是 如 此 。 

因为 受 欢 迎 的 原因 ，Weka 允 许 用 户 像 调 用 无 指导 过 滤器 一 样 调用 有 指导 过 滤器 作为 一 种 
预 处 理 操作 。 然 而 ， 如 果 用 户 想 把 它们 用 作 分 类 ， 则 需 采用 一 种 不 同 的 方式 。Weka 提 供 了 一 
个 元 学 习 器 用 于 调用 一 个 过 滤器 ， 从 而 将 学 习 算法 包含 在 过 滤 机 制 中 。 这 样 就 可 以 用 由 训练 
数据 生成 的 过 滤器 来 过 滤 测 试 数据 。 这 对 一 些 无 指导 过 滤器 也 很 有 用 。 例 如 ， 在 
StringToWordVector 中 ， 字 典 仅仅 是 由 训练 数据 生成 的 ， 测 试 数据 中 的 异常 字 将 被 删除 。 欲 以 
该 种 方式 使 用 有 指导 过 滤器 ， 调 用 菜单 的 meta 部 分 中 的 Filtered Classifier 元 学 习 方 案 ， 访 菜单 
可 通过 单 击 Class 态 面板 上 的 Choose 按 钮 显示 。 图 10-17a 给 出 了 该 元 学 习 方案 的 对 象 编辑 器 。 
用 户 可 在 对 象 编辑 器 中 选择 分 类 器 和 过 滤器 。 图 10-17b 列 出 了 过 滤器 菜单 。 

与 无 指导 过 滤器 一 样 ， 有 指导 过 滤器 可 分 为 属性 过 滤器 和 实例 过 滤器 ， 见 表 10-3 和 表 





a) 配置 FilteredClassifier b) 过 滤器 菜单 


图 10-17 用 Weka 的 元 学 习 器 做 离散 
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表 10-3 ”有 指导 属性 过 滤器 


名 OBR 功 能 
AttributerSelection 像 Select attributes 耐 板 -~ 样 ， 提 供 采 用 相同 的 属性 选择 方法 
ClassOrder 随机 化 或 修改 类 值 的 顺序 
Discretize 将 数值 性 属性 转换 为 名 词性 属性 
NominalToBinary 将 名 词性 属性 转换 为 一 进 制 属性 ， 如 果 类 是 数值 性 的 ， 用 有 指导 方法 


表 10-4 有 指导 实例 过 滤器 





名 R 功 能 
Resample 用 赫 代 式 采 样 法 ， 生 成 -个 数据 集 的 随机 子 采 样 
SpreadSubsample 用 蔡 代 式 采样 法 ， 生 成 一 个 随机 的 子 采 样 ， 该 子 采样 在 类 频率 之 
间 有 具备 一 个 给 定 的 分 布 
StratifiedRemoveFolds 输出 数据 集 的 -个 确定 的 分 层 交 叉 验 证 折 
有 指导 属性 过 滤器 


Discretize (图 10-17 高 亮 部 分 ) 使 用 的 是 有 指导 离散 的 MDL 方 法 (第 7.2 节 )。 用 户 可 指定 
一 定 区 间 内 的 属性 ， 或 将 离散 的 属性 硬性 地 当 作 二 进 制 属性 。 类 属性 必须 是 名 词性 的 。 在 上 默 
认 情 况 下 通常 使 用 Fayyad 和 Irani 标 准 (19934), ， 但 Kononenko 方 法 (1995 年 ) 是 一 个 选项 。 

NominalToBinary 过 滤器 有 一 个 有 指导 版 本 ， 它 把 所 有 多 值 的 名 词性 属性 转换 为 二 进 制 属 
性 。 在 这 个 版 本 中 ， 该 转换 取决 于 其 中 的 类 是 数值 性 的 还 是 名 词性 的 。 如 果 是 名 词性 的 ， 前 
面 用 过 的 方法 同样 适用 ,一 个 具有 k 个 值 的 属性 转换 为 个 二 进 制 属性 。 但 如 果 类 是 数值 性 的 ， 
采用 的 则 是 第 6.5 节 中 描述 过 的 方法 。 不 论 哪 种 情况 ， 类 属性 本 身 不 做 转换 。 

ClassOrder 修 改 类 值 的 排序 方法 。 用 户 决 定 新 的 排序 是 随机 的 ， 还 是 按 类 频率 由 高 至 低 或 
由 低 至 高 排列 。 该 过 滤器 绝对 不 可 以 与 Filtered Classifier 元 学 习 方 案 一 起 使 用 ! 
AttributeSelection 可 用 于 自动 属性 选择 ， 并 可 提供 与 探索 者 的 Select attribute 面 板 (后 面 会 谈 
到 ) 同样 的 功能 。 

有 指导 实例 过 滤器 

共有 三 种 有 指导 实例 过 滤器 。Resample ,顾名思义 ， 除 了 可 完成 子 采样 中 的 类 分 布 外 ， 
ERE 个 无 指导 过 滤器 。 除 此 以 外 ， 它 还 可 以 经 过 适当 设置 ， 从 而 在 类 分 布 中 加 入 偏差 使 
其 成 为 平均 分 布 。SpreadSubsample 还 生成 一 个 随机 的 子 采 样 ， 但 最 少见 与 最 常见 之 间 的 频率 
差 是 可 以 控制 的 ， 比 方 说 ， 用 户 可 在 类 频率 中 指定 一 个 2:1 的 差 。 与 无 指导 实例 过 滤器 
RemoveFolds-- 样 ，StratifiedRemoveFolds 输 出 数据 集中 一 个 指定 的 交叉 验证 的 折 。 所 不 同 的 
是 ， 此 次 的 折 是 分 层 的 。 
10.4 学 习 算 法 

在 Class 态 面板 上 ， 当 用 户 通过 Choose 按 钮 选择 一 个 学 习 算 法 时 ， 相 关 分 类 器 的 命令 行 版 
本 ， 包 括 用 减 号 标注 的 参数 ， 会 出 现在 按钮 旁 的 横 栏 中 。 要 对 这 些 参 数 进行 修改 ， 单 击 该 横 
栏 弹出 一 个 相应 的 对 象 编辑 器 。 表 10-5 列 出 了 Weka 中 的 分 类 器 。 这 些 分 类 器 被 划分 为 贝 叶 斯 
(Bayesian) 分 类 器 ， 树 ， 规 则 ， 函 数 ， 懒 惰 分 类 器 以 及 一 个 最 终 的 杂项 类 分 类 器 。 我 们 在 对 
这 些 分 类 器 及 其 参数 做 简单 描述 。 和 欲 对 它们 做 深入 了 解 ， 可 在 Weka 的 探索 者 界面 上 任 选 一 种 
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分 类 器 ， 然 后 根据 所 得 的 相应 对 象 编辑 器 进行 研究 。 更 进 一 层 的 分 类 器 元 学 习 器 ， 会 在 下 一 











节 中 描述 。 
表 10-5 Weka 中 的 分 类 器 算法 
名 K 功 能 
Bayes AODE 平均 单一 依赖 估计 器 
BayesNet 学 习 贝 叶 斯 网 
ComplementNaiveBayes 建立 一 个 补偿 的 朴素 贝 叶 斯 分 类 器 
NaiveBayes 标准 概率 朴素 贝 叶 斯 分 类 器 
NaiveBayesMultinomial $e DUH & Be al PER A 
NaiveBayesSimple RE DUH FD Ty SB 
NaiveBayesUpdateable 每 次 只 学 习 一 个 实例 的 递增 朴素 贝 叶 斯 分 类 器 
Trees ADTree 建立 交互 决策 树 
DecisionStump 建立 单 级 决策 树 
143 基本 的 分 治 决策 树 算法 
J48 C4.5 决 策 树 学 习 器 (实现 C4.5revision8) 
LMT 建 Ylogistic 模 型 树 
M5P MS ' 模 型 树 学 习 器 
NBTree 在 树 的 叶 端 用 朴素 贝 时 斯 分 类 器 建立 一 个 决策 树 
RandomForest 构建 随机 森林 
RandomTree 构建 一 个 每 个 节点 含有 指定 数 最 的 随机 属性 的 树 
REPTree 使 用 减少 - 误差 修剪 的 快速 树 学 习 跨 
UserClassifier 允许 用 户 建立 自己 的 决策 树 
Rules ConjunctiveRule 简单 结合 规则 学 习 器 
DecisionTable 建立 一 个 简单 的 决策 表 多 数 分 类 器 
JRip 用 于 快速 ， 有 效 的 规则 归纳 的 RIPPER 算法 
MSRules 从 利用 M5' 建 立 的 模型 树 中 获取 规则 
Nnge 使 用 非 嵌 套 证 化 的 样本 集 来 产生 规则 的 最 近邻 方法 
OneR 1R 分 类 器 
Part 从 利用 J4.8 建 立 的 部 分 决策 树 中 获取 规则 
Prism 应 用 于 规则 的 简单 概 盖 算法 
Ridor Ripple-down 规 则 学 习 器 
ZeroR 预测 多 数 类 (如果 是 名 词性 的 ) 或 平均 值 ( 如 果 
是 数值 性 的 ) 
Functions LeastMedSq 使 用 中 间 值 而 非 平 均值 的 稳健 回归 
LinearRegression 标 崔 线性 回归 
Logistic Ht i Retz logistic [a] 归 模 型 
MultilayerPerceptron 反 向 传播 的 神经 网 络 


PaceRegression 
RBFNetwork 


SimpleLinearRegression 


SimpleLogistic 
SMO 

SMOreg 
VotedPerceptron 


Winnow 


用 Pace 回 归 建 立 线性 回归 模型 

实现 一 个 径 向 大 范 数 网 络 

学 习 一 个 基于 单个 属性 的 线性 回归 模型 

使 用 已 有 的 属性 选择 ， 建 立 线性 logistic 回 归 模 型 
用 于 支持 向 量 分 类 的 连续 最 小 优化 算法 

用 于 支持 向 量 回 妇 的 连续 最 小 优化 算法 

投票 感知 器 算法 

成 倍 更 新 的 ， 由 错误 驱动 的 感知 器 
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( 续 ) 
名 K H 能 
Lazy IB1 基本 的 ， 基 于 实例 的 最 近邻 学 习 器 
IBk k 最 近邻 分 类 器 
KStar 使 用 沦 化 距离 销 数 的 最 近邻 
LBR 懒 情 中 时 斯 规则 分 类 器 
LWL 用 于 局 部 加 权 学 习 的 一 般 算 法 
Misc. Hyperpipes 在 实例 空间 中 基于 超大 量 实例 的 极 简单 的 快速 学 习 器 
VFI 投票 特征 区 间 方 法 、 简单 快速 


10.4.1 贝 叶 斯 分 类 器 


NaiveBayes 实 现 概率 的 杆 素 贝 叶 斯 分 类 器 (第 4.2 节 )。NaiveBayesSimple 用 正 态 分 布 来 构 
建 数 值 性 属性 的 模型 。NaiveBayes 可 利用 核 密度 估计 器 ， 从 而 在 正常 化 假定 总 体 上 不 正确 的 
情况 下 改进 性 能 。 它 还 可 用 有 指导 离散 来 处 理 数值 性 属性 。NaiveBayesUpdateable 是 一 个 每 次 
只 处 理 一 个 实例 的 递增 版 本 ; 利用 核 估计 器 ， 但 无 法 使 用 离散 。NaiveBayesMultinomial 实 现 
多 重 名 词性 贝 叶 斯 分 类 器 (第 4.2 节 )。ComplemenrNaiveBayes 建 立 一 个 增补 的 朴素 贝 叶 斯 分 
类 器 ， 就 像 Rennie 等 说 描述 的 那样 (2003 年 ) (本 书 中 所 用 的 TF x IDF 和 长 度 正常 化 转换 可 用 
StringToWordVector 过 滤器 来 实现 )。 . 

AODE 平 均 单 一 依赖 估计 器 是 一 种 对 一 个 交互 式 贝 叶 斯 模型 空间 进行 均 分 的 贝 叶 斯 方法 ， 
该 方法 比 朴素 贝 叶 斯 《Webb 等 ， 待 出 版 ) 有 较 弱 的 独立 假定 。 该 算法 对 含有 非 独立 属性 的 数 
据 集 进行 分 类 比 朴素 贝 叶 斯 更 精确 。 

BayesNer 通 过 基于 6.7 节 中 所 做 的 假设 来 学 习 贝 叶 斯 网 络 ， 必 须 是 名 词性 属性 (数值 性 属 
性 需 预 先 离散 ) 及 无 残缺 值 (任何 类 似 的 值 全 部 被 替换 )。 有 两 种 不 同 的 用 于 估计 网 络 的 条 件 
概率 表 的 算法 。 搜 索 是 通过 以 下 方式 完成 的 : K2 或 TAN 算法 (第 6.7 节 )， 或 更 成 熟 的 基于 登 
出 、 模 拟 六 火 、 制 表 搜 索 及 通用 算法 基础 上 的 方法 。 作 为 一 个 可 选项 ， 搜 索 速 度 可 通过 AD 树 
(第 6.7 节 ) 得 到 提高 。 还 有 一 种 算法 是 通过 条 件 独立 测试 来 学 习 网 络 的 结构 ; 另外 ， 网 络 结 
构 也 可 从 一 个 XML 文件 载 信 。 关 于 Weka 中 贝 叶 斯 网 络 的 更 多 详细 内 容 可 在 Bouckaert (2004 
年 ) 中 找到 。 

用 户 可 通过 右键 单 击 历史 条 目 然后 选择 Visualize grapp 的 方式 观察 网 络 结构 。 图 10-18a 显 
示 的 是 天 气 数据 的 名 词性 版 本 的 图 表 ， 该 图 表 实 际 上 与 由 类 值 决定 的 所 有 概率 条 件 的 朴素 贝 
叶 斯 的 结果 相对 应 。 这 是 因为 搜索 算法 在 默认 情况 下 使 用 的 是 K2， 目 一 个 节点 的 母 节点 数量 
的 最 大 值 设 为 1。 通 过 单 击 配 置 面 板 上 的 K2 将 该 最 大 值 重新 设 为 3， 可 得 到 如 图 10-18b 所 示 的 
更 为 有 趣 的 网 络 。 在 一 个 节点 上 单 击 可 显示 它 的 概率 分 布 ， 图 10-18c 就 是 通过 单 击 图 10-18b 
中 的 windy 节 点 得 到 的 。 

10.4.2 树 

从 表 10-5 中 的 树 分 类 器 中 我 们 已 经 看 到 如 何 使 用 实现 了 C4.5 (第 6.1 节 ) 的 J4.8。 要 显示 

它 的 选项 ， 单 击 图 10-4b 中 的 Choose 按 钮 旁边 的 横 栏 ， 弹 出 图 10-19 中 的 对 象 编辑 器 。 用 户 可 


建立 二 又 树 而 不 是 多 叉 树 。 用 户 还 可 设 定 修剪 的 置信 度 阔 ( 软 认 是 0.25) ， 和 一 个 时 节点 上 可 
允许 的 实例 的 最 低 数量 (默认 是 2)。 用 户 还 可 选择 减少 误差 的 修剪 (第 6.2 节 ) 作为 标准 C4.5 
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a) 默认 输出 b) 在 搜索 算法 中 将 父母 节点 数量 的 最 大 值 设 为 3 





c) 图 b) 中 windy 节 点 的 概率 分 布 表 
图 10-18 可 视 化 一 个 基于 天 气 数据 (名 词性 版 本 ) 的 贝 叶 斯 网 络 





图 10-19 改变 J4.8 的 参数 
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修剪 的 替补 。 参 数 numFolds (默认 是 3) 决定 了 修剪 集 的 大 小 , 数据 按照 折 的 数量 被 平均 划分 ， 
最 后 一 折 用 作 修 剪 。 当 可 视 化 所 得 的 树 时 (10.1 节 )， 最 好 能 够 参照 原始 数据 点 ， 用 户 可 通过 
打开 savelInstanceData 做 到 这 一 点 (默认 是 关 掉 或 False， 目 的 是 节省 存储 器 )。 用 户 可 阻止 子 
树 上 升 ， 从 而 得 到 一 个 更 高 效 的 算法 ; 强迫 所 用 算法 使 用 未 修剪 的 树 而 不 是 已 修剪 的 树 ; 或 
将 拉 普 拉 斯 平 请 应 用 于 预测 的 概率 (第 4.2 节 )。 

表 10-5 列 出 了 很 多 其 他 决策 树 方法 。143 是 第 4 章 中 解释 过 的 基本 算法 。DecisionStump 是 
专门 设计 用 来 与 后 面 将 要 讨论 的 提升 方法 一 起 使 用 的 ， 它 为 含有 一 个 类 别 化 的 ， 或 数值 性 的 
类 的 数据 集 建立 一 个 单 层 二 又 决策 树 ， 与 此 同时 ， 它 把 残缺 值 按照 一 个 单独 的 值 来 处 理 并 从 
树桩 上 扩展 出 第 三 个 分 支 。 通 过 RandomTree 所 构建 的 树 测 试 每 个 节点 上 的 指定 数量 的 随机 属 
性 ， 对 树 不 做 修剪 。RandomForest 通 过 将 随机 树 进行 整体 装 袋 来 构建 随机 森林 (第 7.5 节 )。 

REPTree 用 信息 增益 /方差 缩减 生成 一 个 决策 树 或 回归 树 并 用 减少 -误差 的 修剪 法 对 其 进 
行 修剪 (第 6.2 节 )。 为 了 在 速度 上 进行 优化 ， 该 算法 只 对 数值 性 属性 的 值 进行 排序 一 次 (第 
6.1 节 )。 它 像 C4.5 一 样 把 实例 分 解 成 碎片 来 处 理 残 缺 值 。 用 户 可 设 定 每 个 叶 所 含 实例 的 最 低 
数量 ， 树 的 最 大 深度 〈 当 提升 树 时 很 有 用 ) ， 分 割 训 练 集 时 方差 的 最 小 比例 (只 针对 数值 性 的 
类 )， 和 修剪 时 折 的 数量 。 

NB7ree 是 决策 树 和 朴素 贝 叶 斯 的 混合 产物 。 它 所 创建 的 树 的 叶 可 用 作 所 有 到 达 该 叶 的 实 
例 的 朴素 贝 叶 斯 分 类 器 。 在 构建 树 时 ， 交 叉 验 证 被 用 于 决定 一 个 节点 是 否 应 当 进 一 步 被 分 割 ， 
还 是 改 用 朴素 贝 叶 斯 模型 (Kohavi，1996 年 )。 

M5P 是 第 6.5 节 中 描述 过 的 模型 树 学 习 器 。LMT 可 用 于 建立 logistic 模 型 树 (第 7.5 节 ) 。 
LMT 还 可 处 理 二 类 及 多 类 值 目标 变量 ， 数 值 性 和 名 词性 属性 及 残缺 值 。 当 在 一 个 节点 上 拟 合 
一 个 logistic 回 归 销 数 时 ， 通 过 交叉 验证 来 决定 一 次 运行 多 少 次 循环 ， 然 后 将 该 运行 次 数 应 用 
到 树 的 所 有 其 他 节点 ， 而 不 是 在 每 个 节点 都 进行 交叉 验证 。 这 种 探索 方式 (用户 可 将 此 方式 
关闭 ) 只 对 精确 度 稍 有 影响 ， 但 却 在 相当 程度 上 缩短 了 运行 时 间 。 另 外 ， 用 户 还 可 设 定 提升 
循环 的 次 数 ， 该 次 数 应 用 于 树 的 每 个 节点 。 通 常情 况 下 ， 使 用 交叉 验证 会 使 由 误 分 类 导致 的 
失误 减 至 最 低 ， 但 也 可 以 选择 使 用 概率 的 根 均 方差 。 分 割 的 依据 可 基于 C4.5 的 信息 增益 CR 
认 设 置 ) 或 logitBoost 的 残留 部 分 ， 目 的 是 力求 提高 残留 部 分 的 纯度 。 

ADTree 用 提升 方法 生成 一 个 交互 式 决策 树 (第 7.5 节 )， 且 优化 成 二 类 问题 。 提 升 循环 的 
次 数 只 是 其 中 的 一 个 参数 ， 且 该 参数 可 被 调节 ， 以 便 适 应 数据 集 及 在 复杂 程度 和 精确 度 之 间 
进行 任意 折衷 。 除 非 发 生 节 点 的 合并 ， 否 则 每 次 循环 会 在 树 上 加 入 三 个 节点 (一 个 分 割 节 点 
和 两 个 预测 节点 )。 默 认 的 搜索 方法 是 穷 举 搜索 (引申 至 所 有 路 径 ) ; 其 余 的 方法 则 是 探索 式 
的 ， 并且 要 快 很 多 。 用 户 可 决定 是 否 存 储 实例 数据 以 用 作 可 视 化 。 


10.4.3 规则 


表 10-5 列 出 了 许多 生成 规则 的 方法 。DecisionTable 生 成 一 个 决策 表 多 数 分 类 器 (第 7.1 节 )。 
它 使 用 最 佳 - 优 先 探索 评估 属性 子 集 ， 并 且 可 用 交叉 验证 进行 评估 (Kohavi，1995 年 )。 其 中 
一 个 选项 使 用 最 近邻 方法 并 基于 同样 的 属性 集 来 决定 每 个 未 被 决策 表 中 所 涵盖 的 实例 的 类 属 
性 ， 这 里 的 涵盖 指 的 是 实例 必须 与 决策 表 中 的 某 个 具体 条 目 相 吻合 ， 而 不 是 仅仅 与 该 表 的 全 
局 多 数 相 一 致 。OneR 是 只 含有 如 下 一 个 参数 的 1R 分 类 器 (第 4.1 节 ): 最 小 的 离散 桶 的 大 小 。 
ConjunctiveRule 只 学 习 单一 的 规则 用 以 预测 要 么 是 数值 性 要 么 是 名 词性 的 类 值 。 未 被 规则 覆 
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盖 的 测试 实例 被 指定 为 未 被 覆盖 的 训练 实例 的 默认 类 值 (或 分 布 )。 先 计算 出 每 个 前 提 条 件 的 
信息 增益 (名 词性 的 类 ) 或 方差 缩减 〈 数 值 性 的 类 )， 然 后 用 减 小 误差 的 修剪 对 规则 进行 修剪 。 
ZeroR 更 为 简单 ， 只 需 预测 测试 数据 的 多 数 类 ( 如 果 是 名 词性 的 ) 或 平均 值 (如 果 是 数值 性 的 )。 
Prism 实 现 规 则 的 初级 覆盖 算法 (第 4.4 节 )。 

Part 由 部 分 决策 树 中 获取 规则 (第 6.2 节 )。 它 使 用 与 14.8 中 同样 的 用 户 自 定义 的 参数 ， 利 
用 C4.5 的 探索 方法 来 生成 树 。M5Rules 利 用 M5' 生 成 的 模型 树 获 取 回 归 规 则 (第 6.5 节 )。Ridor 
从 产生 默认 规则 的 特例 中 学 习 规则 (第 6.2 节 )， 它 用 递增 减少 -误差 修剪 法 来 找 出 具有 最 小 
误差 率 的 特例 ， 从 而 为 每 个 特例 找到 最 好 的 特例 ， 并 依 此 进行 循环 。 

JRip 实 现 RIPPER (第 6.2 节 )， 包 括 规则 集 的 探索 式 全 局 优化 (Cohen，1995 年 )。Nnge 是 
-种 利用 非 嵌 套 的 省 化 的 样本 集 来 产生 规则 的 最 近邻 方法 (第 6.4 节 ) 。 


10.4.4 函数 


表 10-5 中 的 国 数 类 别 包 括 一 组 多 种 类 的 分 类 器 ， 这 些 分 类 器 可 以 以 一 种 自然 合理 的 方式 
写成 数学 方程 式 。 而 像 决 策 树 和 规则 等 其 他 的 分 类 器 则 不 可 以 (当然 也 有 例外 : 朴素 贝 叶 斯 
就 有 一 个 简单 的 数学 公式 )。 这 些 函 数 中 有 三 种 实现 是 线性 回归 (第 4.6 节 ) 。 
SimpleLinearRegression 基 于 一 个 单独 的 属性 学 习 一 个 线性 回归 模型 ， 它 会 挑选 能 产生 最 小 方 
差 的 那个 属性 。 残 缺 值 和 非 数 值 性 属性 在 挑选 时 不 予 考 虑 。LinearRegression 所 做 的 是 标准 的 
最 小 平方 线性 回归 ， 且 可 以 选择 性 地 进行 属性 选择 ， 选 择 方式 要 么 使 用 反 向 消除 (7.1 节 ) 逐 
-选择 ， 要 么 用 全 部 属性 建立 一 个 完整 模型 ， 将 这 些 属性 按 它们 的 标准 化 系数 进行 降序 排列 ， 
然后 逐一 去 掉 每 个 项 直至 满足 终止 条 件 (这 个 方法 在 第 6.5 节 中 修剪 树 标题 下 曾 做 过 描述 ， 当 
时 的 情况 和 现在 略 有 不 同 )。 两 种 选择 方式 用 的 都 是 第 6.7 节 中 的 AIC 终 止 条 件 的 其 中 一 个 版 本 。 
实现 中 含有 两 种 进一步 的 细 分 : 一 种 探测 共 线 属性 的 机 制 (可 被 关 掉 )， 和 一 个 能 够 使 恶化 的 
案例 得 以 稳定 并 通过 加 上 较 大 的 惩罚 系数 降低 过 度 拟 合 的 ridge 参 数 。 从 技术 角度 讲 ， 
LinearRegression 实 现 岭 回归 ， 这 在 标准 的 统计 教科 书 中 有 专门 的 描述 。 

LeastMedSq 是 -… 种 能 够 使 以 回归 线 为 基准 的 发 散 的 平方 的 中 值 (而 不 是 平均 值 ) 最 小 化 
的 高 可 靠 性 线性 回归 方法 〈 第 7.4 节 ) (Rousseeuw 和 Leroy，1987 年 )。 它 将 标准 线性 回归 反复 
应 用 于 数据 的 子 采样 ， 然 后 把 具有 最 小 中 值 平方 误差 的 解决 方法 显示 出 来 。 

SMO 采 用 多 项 式 或 高 斯 核 (Platt，1998 年 ; Keerthi 等 ，2001 年 ) 来 实现 连续 最 小 优化 算 
法 用 于 训练 一 个 支持 向 量 分 类 器 (第 6.3 节 )。 数 据 中 的 残缺 值 全 部 被 替换 ; 名 词性 属性 转换 
成 二 进 制 属性 ; 且 默 认 条 件 下 属性 须 进行 正常 化 ， 要 注意 ， 输 出 结果 中 的 系数 是 基于 经 过 正 
党 化 的 数据 的 基础 上 。 用 户 可 将 正常 化 功能 关闭 ， 或 将 输入 的 值 标准 化 至 零 平 均值 及 单位 方 
Ai. 成 对 分 类 多 用 于 多 类 的 问题 。logistic 回 归 模 型 可 与 支持 向 量 机 相 吻 合 以 获取 概率 评估 。 
对 于 多 类 的 情形 ， 所 预测 的 概率 则 是 对 偶 关 联 的 (Hastie 和 Tibshirani，1998 年 )。 在 处 理 稀疏 
实例 时 ， 将 正常 化 功能 关闭 可 加 快 处 理 速度 。SUMOreg 实 现 连续 最 小 优化 算法 用 于 处 理 回 归 问 
题 (SmolafSchélkopf, 19984), 

VoredPerceptron 是 投票 感知 器 算法 (第 6.3 节 )。Winnow (第 4.6 节 ) 修改 基本 的 感知 器 以 
便利 用 倍增 的 更 新 。 该 实现 允许 有 不 同 于 1e 的 第 二 个 倍数 B 以 便 用 于 图 4-11 中 的 除法 送 算 ， 
并 且 还 提供 所 用 算法 的 平衡 版 本 。 

PaceRegression 用 新 的 Pace 回 归 技 术 ( Wang 和 Witten ，2002 年 ) 建立 线性 回归 模型 。 在 有 
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很 多 属性 的 情况 下 . Pace 回 归 特 别 擅长 决定 哪些 属性 应 该 被 删除 ， 实 际 上 ， 在 某 些 常见 情况 
下 ， 当 属性 的 数量 趋 于 无 限 大 时 ，Pace 回 归 可 被 证 明 是 最 佳 选择 。 

SimpleLogistic 建 立 logistic 回 归 模 型 (第 4.6 节 )， 使 用 以 简单 回归 函数 为 基 学 习 器 的 
LogitBoost 来 拟 合 这 些 模型 并 用 交叉 验证 来 决定 进行 多 少 次 循环 ， 因 为 交叉 验证 可 支持 自动 属 
性 选择 (Landwehr 等 ，2003 年 )。Logistic 是 另外 一 种 建立 在 le Cessie 和 van Houwelingen 
(1992 年 ) 研究 成 果 基 础 上 的 ， 用 于 生成 和 利用 一 个 多 名 词性 的 logistic 回 归 模 型 及 一 个 岭 估计 
器 的 实现 方法 ， 该 方法 通过 为 回归 项 加 上 较 大 的 惩罚 系数 来 防止 过 度 拟 合 。 

RBFNerwomk 实 现 了 一 个 高 斯 径 向 基 国 数 网 络 (第 6.3 节 )， 它 用 k 均 值 推导 出 人 陷 藏 项 的 中 心 
点 及 宽度 ， 并 将 由 隐藏 层 得 到 的 输出 结果 合并 起 来 。 合 并 的 方式 是 ， 如 果 类 是 名 词性 的 就 用 
logistic 回 归 ; 如 果 是 数值 性 的 ， 则 用 线性 回归 。 先 将 基 印 数 的 激活 ( 即 输 出 ) 正常 化 ， 即 相 
加 总 和 为 1， 然 后 将 它们 输入 线性 模型 。 用 户 可 指定 E， 即 聚 类 的 数量 ; 名 词性 类 的 问题 的 
logistic 回 归 循 环 次 数 的 最 大 值 ; 相关 聚 类 的 最 小 标准 差 ; 以 及 回归 的 岭 值 。 如 果 类 是 名 词性 
的 ， 则 将 K 均 值 分 别 应 用 二 每 个 类 ， 从 而 为 每 个 类 导出 K 个 聚 类 。 

神经 网 络 

MulrilayerPerceptron 是 -一 个 使 用 反 向 传播 进行 训练 的 神经 网 络 (第 6.3 节 )。 尽 管 在 表 10-5 
中 它 是 列 在 图 数 的 下 面 ， 其 实 它 与 其 他 的 方案 不 相同 ， 因 为 它 有 自己 的 用 户 界 面 。 如 果 用 户 
载 入 大 气 数据 的 数值 性 版 本 ,调用 MulrilayerPerceptron, 在 它 的 对 象 编辑 器 中 将 GUI 设 为 True， 
并 在 Ciass 太 面板 上 单 击 Start 运 行 该 网 络 ， 图 10-20 所 示 图 表 会 出 现在 一 个 单独 的 窗口 中 。 该 网 
RH UE: 在 左 侧 每 个 属性 由 一 个 矩形 框 表示 (绿色)， 这 是 输入 层 ; BFR EMSA 
Thame (红色 )， 由 联结 在 起 的 所 有 输入 节点 组 成 ， 右边 有 一 个 输出 层 (BE) RAD 
的 标签 表明 输出 节点 所 代表 的 类 。 数 值 性 的 类 的 输出 节点 会 被 自动 转换 成 无 疮 值 的 线性 单元 。 

在 单 击 Start 运 行 网络 之 前 ， 用 户 可 通过 加 入 节点 及 链接 改变 它 的 结构 。 节 点 可 被 选 定 或 
取消 选 定 。 在 图 10-20a 中 ， 隐 茂 和 输出 层 中 的 全 部 六 个 节点 的 圆心 部 分 都 呈现 灰色 ， 表 明 它 
们 都 未 被 选 定 。 要 选 定 “个 节点 ， 只 需 简 单单 击 它 ， 节 点 的 圆心 会 由 灰色 变 为 亮 黄色 。 要 取 
消 选 定 “个 节点 ， 在 空白 处 右键 单 击 。 要 加 入 一 个 节点 ， 首 先 确保 没有 节点 被 选 定 ， 然 后 在 
面板 上 的 任意 处 左 键 单 击 ; 新 节点 将 自动 选 定 。 图 10-20a 中 ， 在 下 方 的 中 间 处 ， 一 个 新 节点 
已 经 被 加 入 。 要 将 两 个 节点 连接 起 来 ， 选 定 起 始 节 点 ， 然 后 单 击 终 止 节点 。 如 果 有 好 几 个 起 
始 节 点 被 选 定 ， 它 们 都 会 被 连接 到 终止 节点 。 如 果 用 户 在 空白 处 单 击 ， 一 个 新 节点 会 生成 并 
作为 终止 节点 。 请 注意 ， 连 接 是 有 方向 的 (尽管 它们 的 方向 未 被 显示 出 来 )。 起 始 节 点 会 保持 
被 选 定 状态 ， 这 样 做 的 好 处 是 ， 用 户 只 需 点 击 几 下 鼠标 即 可 加 入 整个 隐 项 层 如 图 10-20b。 要 
删除 一 个 节点 ， 首 先 确保 设 有 节点 被 选 定 ， 然 后 右键 单 击 要 删除 的 节点 ; 这 样 做 所 删除 的 不 
只 是 该 攻 点 ， 所 有 指 问 该 节点 的 连接 也 一 并 删除 。 要 删除 一 个 单独 的 连接 ， 选 定 -- 个 节点， 
右键 单 击 该 连接 另外 -端的 节点 。 

除了 配置 网 络 的 结构 ， 用 户 还 可 控制 学 习 比 率 和 动量 (第 6.3 节 )， 以 及 该 网 络 穿越 数据 的 
总 的 通过 次 数 ， 称 为 纪元 (epochs )。 用 户 单 击 Start 时 ， 网 络 即 开始 训练 ， 且 读 纪 元 正常 运行 
的 指示 及 纪元 的 误差 会 显示 在 图 10-20 中 面板 的 左下 方 。 请 留意， 误差 是 基于 整个 网 络 基础 上 
的 ， 随 着 误差 值 的 计算 ， 网 络 也 随 之 变化 。 对 于 数值 性 的 类 来 说 ， 误 差 值 取决 于 类 是 否 被 正 
常 化 。 当 时 间 点 的 数量 达到 指定 值 时 ， 网 络 会 停止 ， 此 时 ， 用 户 可 选择 接受 该 结果 或 将 纪元 
的 数量 增 至 所 期 望 的 值 ， 再 点 击 Start 继 续 训练 。 
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b) 


图 10-20 使 用 Weka 的 神经 网 络 图 形 用户 界 面 


MultilayerPerceptron 无 需 通过 图 形 界面 也 可 运行 。 通 过 对 象 编辑 器 设置 儿 个 参数 即 可 控 
制 它 的 操作 。 如 果 用 户 使 用 图 形 界面 ， 则 可 对 网 络 起 始 结构 进行 管理 ， 即 用 户 可 互动 式 地 对 
结构 进行 重新 设 定 。 使 用 artoBuizd 即 可 加 入 隐蔽 层 并 将 其 连接 起 来 。 默 认 条 件 下 隐藏 层 是 不 
显示 的 ， 如 图 10-20a 所 示 ， 但 如 果 不 用 autoBuild4， 读 层 是 无 法 显示 出 来 的 ， 并 且 也 没有 连接 。 
参数 hiddenLayers 定 义 了 哪些 隐蔽 层 会 被 显示 及 每 个 隐蔽 层 含 多 少 节点 。 图 10-20a 是 在 值 的 大 
小 为 4 的 情况 下 产生 的 (每 个 隐蔽 层 含 4 个 节点 )， 尽管 图 10-20b 是 通过 交互 式 加 入 节点 生成 的 ， 
它 也 可 同样 通过 将 hiddenLayers 设 为 4，,5 (一 个 隐蔽 层 有 4 个 节点 ， 另 一 个 有 5 个 节点 ) 来 产生 。 
所 设 的 值 是 一 串 由 逗号 分 隔 的 整数 ; 0 表示 没有 隐蔽 层 。 进 一 步 说 ， 如 果 不 用 整数 值 ， 则 可 以 
使 用 一 些 预 设 的 值 : 混 属 性 的 数量 ，o 是 类 值 的 数量 ，o 是 二 者 的 平均 值 ， 而 ! 瑚 示 它们 的 和 。 
a 是 默认 值 ， 图 10-20a 就 是 用 它 产生 的 。 

参数 learningRate 和 Momentum 为 这 些 变 量 设 定 值 ， 它 们 也 可 通过 图 形 界面 进行 重 设 ， 参 
数 decay 会 导致 学 习 比率 随 着 时 间 的 增加 而 下 降 : 它 用 比率 的 起 始 值 除 以 周期 的 数量 来 得 到 当 
前 的 比率 。 该 方法 有 时 可 提升 性 能 ， 且 可 防止 网 络 发 散 。 参数 resef 会 自动 在 网 络 偏离 答案 时 
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重新 为 网 络 设 定 一 个 较 低 的 学 习 比 率 并 重新 开始 训练 (这 个 选项 仅 在 不 使 用 图 形 用 户 界面 时 
才 有 效 )。 

参数 trainingTime 用 于 设 定 训练 纪元 的 次 数 。 除 此 之 外 ， 还 可 以 提取 一 定 百分比 的 数据 专 
门 用 于 确认 (使 用 validationSetSize ): 然后 训练 继续 进行 直至 其 在 验证 集 上 的 性 能 开始 持续 恶 
化 ， 或 直至 达到 所 指定 的 纪元 的 次 数 。 如 果 该 百分比 设 为 零 ， 则 不 使 用 验证 集 。 参 数 
validationThreshold 决 定 了 验证 集 的 误差 可 允许 持续 恶化 多 少 次 才 停 止 训练 。 

在 MultilayerPerceptron 对 象 编辑 器 中 上 默认 情况 下 所 指定 的 过 滤器 是 nominal ToBinary 
Filter; 如 果 所 用 数据 的 名 词性 属性 的 确 是 按照 序数 排列 的 话 ， 将 该 过 滤器 关闭 则 可 对 提高 性 
能 有 帮助 。 属 性 可 被 正常 化 (用 normalizeAttributes)， 一 个 数值 性 的 类 属性 也 可 以 正常 化 (用 
normalizeNumericClass): 两 种 方式 都 能 提高 性 能 。 


10.4.5 懒 情 分 类 器 


懒 情 分 类 器 把 训练 实例 存储 起 来 直到 进行 分 类 时 才 开 始 真正 工作 。1B81 是 一 个 基本 的 基于 
实例 的 学 习 器 (4.7 节 )， 它 能 找 出 与 给 定 的 测试 实例 在 欧 几 里 得 距离 上 最 接近 的 训练 实例 ， 
然后 将 该 测试 实例 预测 为 与 训练 实例 同样 的 类 。 如 果 有 不 止 一 个 的 训练 实例 都 被 认为 是 最 接 
近 的 ， 使 用 第 一 个 发 现 的 实例 。1Bk 同 样 是 一 个 以 距离 为 度量 的 x 最 近邻 分 类 器 。 最 近邻 的 数 
量 (默认 k=1) 可 在 对 象 编辑 器 中 明确 指定 或 用 留 一 交 又 验证 自动 确定 ， 这 取决 于 所 指定 的 值 
的 上 限 。 从 一 个 以 上 的 邻居 中 做 出 的 预测 可 按照 这 些 邻 居 与 测试 实例 的 距离 进行 加 权 ， 有 两 
个 不 同 的 方程 式 被 实现 以 用 于 将 距离 转换 为 权 。 分 类 器 持 有 的 训练 实例 的 数量 可 通过 设 定 窗 
口 尺 寸 选 项 来 加 以 限制 。 随 着 新 的 训练 实例 不 断 加 入 ， 最 早 的 实例 被 删除 以 使 训练 实例 保持 
为 所 限制 的 数量 。KSiar 是 一 个 使 用 泛 化 距离 函数 的 最 近邻 方法 ， 该 函数 是 基于 转换 基础 上 的 
(第 6.4 节 )。 

LBR ( 懒 情 幢 叶 斯 规则 的 缩写 ) 是 一 个 贝 叶 斯 分 类 器 ， 它 将 所 有 的 处 理 过 程 都 推迟 到 分 
类 时 进行 。 该 分 类 器 从 每 个 测试 实例 的 属性 中 挑选 出 组 不 可 以 对 其 进行 独立 假设 的 属性 ; 
除了 给 定 类 属性 和 所 选 定 的 属性 以 外 的 其 他 属性 则 可 被 看 作 相互 独立 。 该 分 类 器 对 于 小 型 测 
试 集 来 说 效果 很 好 (Zheng 和 Webb，2000 年 )。 

LWL 是 - -个 用 于 局 部 加 权 学 习 的 通用 算法 。 它 用 一 个 基干 实例 的 方法 来 进行 权 指定 ， 并 
根据 经 过 加 权 的 实例 生成 一 个 分 类 器 。 该 分 类 器 是 在 LWL 的 对 象 编辑 器 中 选 定 的 :一 个 较 好 
的 选择 是 分 类 问题 用 朴素 贝 叶 斯 ， 而 回归 问题 则 用 线性 回归 (第 6.5 节 )。 用 户 可 设 定 所 用 的 
邻居 数量 ， 决 定 核 的 带宽 ， 以 及 用 于 加 权 的 核 的 形状 是 线性 、 反 转 或 高 斯 。 属 性 正常 化 功能 
默认 情况 下 是 打开 的 。 


10.4.6 其 他 的 杂项 分 类 器 


Misc. 类 别 包含 两 个 简单 的 在 第 4.7 节 提 到 过 的 分 类 器 。 对 于 离散 的 分 类 问题 来 说 ， 
HyperPipes 记 录 了 在 训练 数据 中 观察 到 的 每 个 属性 的 值 的 区 间 及 其 类 别 ， 并 得 出 哪些 区 间 含 
有 测试 实例 的 属性 值 、 从 而 挑 出 含有 最 多 正确 区 间 的 类 别 。VFI (投票 特征 区 间 ) 通过 离散 数 
值 性 属性 及 对 名 词性 属性 使 用 点 区 间 的 方式 围绕 每 个 类 建立 区 间 ， 并 且 针 对 每 个 属性 记录 每 
个 区 间 中 类 的 数量 ， 然 后 用 投票 的 方式 对 测试 实例 进行 分 类 (Demiroz 和 Guvenir，1997 年 )。 
一 个 简单 的 属性 加 权 方 案 会 为 较 多 的 置信 和 度 区 间 指定 较 高 的 权 ， 这 里 置信 和 度 是 炳 的 函数 。VFI 
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比 杆 素 贝 叶 斯 速度 快 ， 但 比 HyperPipes 慢 。 无 论 哪 种 方法 都 无 法 处 理 残缺 值 。 
10.5 元 学 习 算法 

表 10-6 中 列 出 的 元 学 习 算 法 将 分 类 器 变 成 功能 更 强大 的 学 习 器 。 其 参数 之 一 用 来 指定 基 
分 类 器 ; 其 余 参 数 则 用 来 确定 类 似 装 袋 和 提升 方案 中 循环 的 次 数 ， 以 及 随机 数 生成 器 的 初始 
种 子 。 我 们 在 第 10.3 节 中 已 经 见 过 Filtered Classifier， 它 在 经 过 过 滤器 过 滤 的 数据 上 运行 一 个 
分 类 器 ， 所 用 的 过 滤器 是 一 个 参数 。 过 滤器 本 身 的 参数 则 是 专门 建立 在 训练 数据 基础 上 的 ， 
这 种 方法 对 于 将 有 指导 过 滤器 应 用 于 测试 数据 很 合适 。 


10.5.1 装 绕 和 随机 化 

Bagging} 一个 分 类 器 袋 装 起 来 以 减 小 方差 (第 7.5 节 )。 这 种 实现 方法 对 分 类 和 回归 都 很 
有 效 ， 当 然 这 取决 于 基 学 习 器 。 对 于 分 类 来 说 ， 预 测 是 通过 平均 概率 估计 而 不 是 投票 做 出 的 。 
其 中 -- 个 参数 是 袋 的 尺寸 ， 它 是 用 训练 集 的 百分比 表示 的 。 另 一 个 参数 是 是 否 计算 溢 袋 误差 
(out-of-bagerror) ， 也 就 是 全 体 成 员 的 平均 误差 (Breiman，2001 年 )。 

RandomCommittee 更 加 简单 ， 它 生成 一 个 基 分 类 器 的 合集 ， 然 后 平均 它们 的 预测 。 每 个 
分 类 器 都 是 基于 同样 的 数据 但 用 不 同 的 随机 种 子 (第 7.5 节 )。 这 种 方法 只 有 在 基 分 类 器 被 随 
机 化 以 后 才 有 意义 ， 否 则 所 有 的 分 类 器 都 会 一 模 一 样 。 


10.5.2 提升 


AdaBoostM1 实 现 的 是 第 7.5 节 中 描述 过 的 算法 (图 7-7)。 它 可 通过 指定 一 个 用 于 权 修 前 的 
效 来 加 速 。 如 果 基 分 类 器 无 法 处 理 经 过 加 权 的 实例 ，AdaBoostM1 就 会 进行 重 采样 (用 户 当然 
也 可 强迫 它 进行 重 采样 )。MultiBoost48 将 提升 与 一 个 装 袋 的 变 体 合并 在 一起， 以 防止 过 度 拟 
合 (Webb, 20004 ). 

与 提升 只 适用 于 名 词性 类 不 同 ，AdditiveRegression 可 强化 一 个 回归 学 习 器 的 性 能 (第 7.5 
节 )。 它 有 两 个 参数 : 收缩 ， 用 来 管理 学 习 比 率 ， 还 有 一 个 是 产生 模型 数量 的 最 大 值 。 如 果 后 
一 个 参数 是 无 穷 大 的 话 ， 运 行 会 持续 下 去 直至 误差 不 再 降低 。 


表 10-6 Weka 中 的 元 学 习 算 法 





名 OK h 能 
Meta AdaBoostM 1 用 AdaBoostM1 方 法 提升 
AdditiveRegression 通过 克 代 拟 合 残留 部 分 来 提高 问 归 方法 的 性 能 
AttributeSelectedClassifier 通过 属性 选择 来 降低 数据 的 维 数 
Bagging SE -个 分 类 器 ; 对 回归 问题 也 同样 有 效 
ClassificationViaRegression 用 回归 方法 进行 分 类 
CostSensitiveClassifier 使 其 基 分 类 器 对 成 本 敏感 
CVParameterSelection 通过 交叉 验证 进行 参数 选择 
Decorate 通过 使 用 特别 构建 的 人 工 训 练 范例 来 生成 分 类 器 合集 
FilteredClassifier 在 经 过 过 滤 的 数据 上 运行 一 个 分 类 器 
Grading 以 已 经 被 标记 为 正确 或 不 正确 的 底层 预测 作为 输入 
的 元 学 习 器 
LogitBoost BEF AA HUA logistic [al 归 


MetaCost 使 一 个 分 类 器 成 为 成 本 敏感 
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( 续 ) 

名 称 功 能 
MultiBoostAB 用 多 重 提升 方法 将 提升 和 装 伐 合并 
MultiClassClassifier 将 一 类 分 类 器 用 了 多 类 数据 集 
MultiScheme 使 用 交叉 验证 从 多 个 候选 村 象 中 选择 一 个 分 类 器 
OrdinalClassClassifier 将 标准 分 类 算法 应 用 了 有 具有 序数 性 类 值 的 分 类 问题 
RacedincrementalLogitBoost 通过 使 logitboosted committee +H Hil FF FE AC UE FILA 

批 次 为 基础 的 递增 学 习 

RandomCommittee 生成 一 个 可 被 随机 化 的 基 分 类 器 的 合集 
RegressionByDiscretization 离散 类 属性 并 使 用 一 个 分 类 器 
Stacking 用 堆栈 的 方法 将 多 个 分 类 器 组 合 起 来 
StackingC 堆栈 的 更 高 效 版 本 
ThresholdSelector 优化 一 个 F 测 量 用 于 概率 分 类 器 
Vote 使 用 概率 估计 或 数值 预测 平均 值 来 合并 分 类 器 


Decorate 通 过 使 用 特别 构建 的 人 工 训练 范例 生成 一 个 各 种 各 样 分 类 器 的 合集 。 访 技术 据说 
可 通过 基 分 类 器 、 通 过 装 袋 和 随机 森林 元 学 习 器 持续 地 改进 (Melville 和 Mooney，2005 
E) 9S。 对 于 小 型 训练 集 来 说 ， 它 的 性 能 比 提升 要 好 、 且 在 大 型 数据 集 上 也 不 算 差 。 它 的 参 
数 之 一 是 所 用 人 工 范 例 的 数量 ， 它 是 用 训练 数据 的 比例 表示 的 。 另 一 个 参数 是 合集 中 欲 加 入 
的 分 类 器 的 数量 ， 因 为 循环 次 数 的 上 限 也 可 人 为 设 定 ， 运 行 过 程 也 许 会 过 早 地 停 下 来 。 较 大 
的 合集 通常 会 生成 更 精确 的 模型 ， 但 也 会 增加 训练 时 间 及 模型 的 复杂 程度 。 

LogitBoost 进 行 的 是 相 加 的 logistic 回 归 (第 7.5 节 )。 像 AdaBoostM1 一 样 ， 它 也 可 通过 一 个 
用 于 加 权 修 草 的 阔 来 加 速 。 合 适 的 迭代 次 数 可 通过 内 部 交叉 验证 得 出 ; 调节 收缩 参数 可 防止 
过 度 拟 合 ， 且 用 户 还 可 选择 重 采样 而 不 是 重 加 权 。RacedlncrementalLogitBoost 通 过 令 
LogitBoostedCommittee 之 问 互 相 竞赛 来 学 习 ， 且 通过 将 数据 分 批 次 处 理 (8.1 节 ) 来 进行 递增 操 
作 ， 因 此 对 处 理 大 型 数据 集 很 有 用 (Frank 等 ，2002 年 )。 每 个 委员 会 成 员 都 由 不 同 的 批 次 得 
出 。 批 次 的 规模 先 由 … 个 给 定 的 最 小 值 开始 ， 然 后 反复 成 倍 递增 直至 达到 一 -个 预 设 的 最 大 值 。 
如 果 基 分 类 器 无 法 处 理 经 过 加 权 的 实例 ， 就 必须 重新 采样 (用户 当然 也 可 强迫 进行 重 采样 )。 
对 数 似 然 修 剪 可 用 于 每 个 委员 会 中 : 这 样 ， 如 果 新 的 委员 会 成 员 降 低 验 证 数据 的 对 数 似 然 ， 
它们 就 会 被 删除 。 用 户 可 决定 将 多 少 个 实例 提取 出 来 专门 用 于 验证 。 当 训练 结束 时 ， 用 于 验 
证 的 数据 还 用 于 决定 哪个 委员 会 保留 下 来 。 
10.5.3 合并 分 类 器 

Vote 提 供 了 一个 基准 方法 用 于 合并 分 类 器 ， 合 并 是 通过 将 分 类 器 的 概率 估计 (分 类 ) 或 数 
值 预 负 (回归 ) 平均 的 方式 完成 的 。MultiScheme 利 用 百分比 精确 度 (分 类 ) 或 均 方差 (回归 ) 
的 交叉 验证 ， 从 -组 候选 分 类 器 中 选择 最 佳 的 一 个 。 折 的 数量 是 一 个 参数 。 在 训练 数据 上 的 
性 能 表现 也 可 作 赫 代 使 用 。 

Stackinr8 利 用 堆栈 (第 7.5 节 将 分 类 器 合并 起 来 ， 这 对 于 分 类 及 回归 问题 都 适用 。 用 户 
可 指明 基 分 类 器 ， 元 学 习 器 以 及 交 又 验证 的 折 的 数量 。StackingC 实 现 一 个 效率 更 高 的 变 体 ， 





但” 随机 森林 方案 在 10.4 节 中 提 到 过 。 它 实际 上 是 一 个 元 学 习 器 ， 但 Weka 之 所 以 将 它 与 其 他 决策 树 方法 -一 起 包 
括 进来 . 是 因为 它 与 -个 县 体 的 分 类 器 RandomTyree 紧 窗 相 关 。 
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它 要 求 其 元 学 习 器 必须 是 一 个 数值 性 的 预测 方案 (Seewald，2002 年 )。 在 Grading 中 ， 元 学 习 
器 的 输入 必须 是 已 经 被 标记 ( 即 经 过 评分 的 ) 为 正确 或 不 正确 的 底层 预测 。 对 应 着 每 个 基 分 
类 器 都 会 得 出 -- 个 元 学 习 器 。 以 便当 基 分 类 器 出 错时 ， 元 学 习 器 用 作 预 测 。 就 像 堆 栈 可 以 被 
看 作 是 投票 的 泛 化 ， 评 分 通过 交叉 验证 泛 化 了 选择 过 程 (Seewald 和 Fiirnkranz，2001 年 )。 


10.5.4 成 本 敏感 学 习 

有 两 种 用 于 成 本 敏感 学 习 的 元 学 习 器 (第 5.7 节 )。 成 本 矩阵 可 作为 一 个 参数 提供 或 由 文件 
载 入 ， 该 文件 来 自 于 由 onDemandDirectory 属 性 设 定 的 文件 夹 中 ， 并 且 是 用 关系 名 字 加 上 扩 
展 .cost 命 名 的 。CostSensitiveClassifier 要 么 根据 指定 给 每 个 类 的 总 成 本 对 训练 实例 进行 重 加 权 
(成 本 敏感 学 习 ，5.7 节 )， 或 者 用 最 小 而 不 是 最 可 能 的 预期 错误 分 类 成 本 来 预测 类 (成 本 敏感 
分 类 ，5.7 节 )。MeraCost 从 基 学 习 器 中 产生 一 个 成 本 敏感 分 类 器 (第 7.5 节 )。 该 实现 方法 在 对 
训练 数据 重新 进行 分 类 时 使 用 全 部 的 装 袋 循环 。(Domingos，1999 年 在 仅仅 使 用 那些 含有 每 
个 训练 实例 的 循环 来 做 重新 分 类 时 观察 到 了 些许 改进 )。 用 户 可 以 指定 每 个 袋 的 尺寸 及 装 袋 的 
循环 的 次 数 。 


10.5.5 优化 性 能 


三 种 元 学 习 器 使 用 包装 技术 来 优化 基 分 类 器 的 性 能 。4trriputeSelectedCliassifier 选 择 属 性 ， 
降低 数据 的 维 数 ， 然 后 将 其 传 给 分 类 器 (第 7.1 节 )。 用 户 可 利用 第 10.2 节 中 描述 过 的 Select 
attributes 面 板 来 挑选 属性 评估 器 和 搜索 方法 。CVParameterSelection 通 过 使 用 交叉 验证 选择 参 
数 的 方式 来 优化 性 能 。 用 户 可 为 每 个 参数 提供 一 个 含有 下 限 和 上 限 以 及 想 要 的 递增 量 的 一 个 
字符 。 例 如 ， 要 想 使 参数 - P 从 1 到 10 以 每 次 1 的 方式 递增 ， 用 P 1 10 1 。 交 叉 验 证 的 折 的 数量 
也 可 以 指定 。 

第 二 个 元 学 习 器 TjpreshnoldSelecror 通 过 为 分 类 器 的 输出 选 定 一 个 概率 阔 来 优化 F 测 量 (第 
5.7 节 )。 其 性 能 可 通过 训练 数据 ， 一 个 旁 置 集 来 衡量 ， 或 通过 交叉 验证 。 基 学 习 器 返回 的 概 
率 可 按 比例 转换 为 [0， 了 的 区 间 ， 如 果 方 案 的 概率 被 限定 在 一 个 狭窄 的 子 区 间 ， 这 么 做 很 有 帮 
助 。 元 学 习 器 可 通过 指定 类 值 的 方式 应 用 于 多 类 问题 ， 进 行 优化 时 所 指定 的 类 值 有 

1) 第 一 个 类 值 

2) 第 二 个 类 值 

3) 最 不 频繁 的 类 值 

4) 最 频繁 的 类 值 

5) AF Ayes, pos (itive) 或 1 的 第 一 个 类 属性 
10.5.6 针对 不 同 任务 重新 调整 分 类 器 

四 种 元 学 习 器 可 以 把 为 完成 一 种 任务 而 设计 的 学 习 器 进行 改装 ， 从 而 可 完成 其 他 任务 。 
ClassificationViaRegression 利 用 回归 方法 ， 通 过 使 类 属性 二 元 化 及 ， 为 每 个 值 建立 一 个 回归 模 
型 的 方式 进行 分 类 。RegressionByDiscretization 是 一 种 回归 方案 ， 它 用 等 宽 离散 法 将 类 属性 离 
散 成 给 定数 量 的 箱 ， 然 后 再 使 用 -个 分 类 器 。 预 测 结果 就 是 每 个 离散 区 间 的 中 间 的 类 值 的 加 
权 平 均值 ， 其 中 所 用 的 权 基 于 每 个 区 间 的 预测 概率 。OrdinalClassClassifier 将 标准 的 分 类 算法 
应 用 于 有 序 类 的 问题 (Frank 和 Hall，2001 年 )。 MultiClassClassifier 将 二 类 分 类 器 用 于 多 类 问 
题 ， 使 用 以 下 方法 中 的 任意 一 种 : 
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D 其 中 之 一 对 应 所 有 其 他 

2) 使 用 投票 作 预 测 的 成 对 分 类 

3) 穷 举 纠 错 代码 〈 第 7.5 节 ) 

4) 随机 选取 的 纠 错 代码 

随机 代码 向 量 已 知 具有 好 的 纠 错 属性 ， 它 的 一 个 参数 明确 了 代码 向 量 的 长 度 (以 位 为 单位 )。 


10.6 聚 类 算法 


表 10-7 列 出 了 Weka 的 豪 类 算法 ， 前 丙种 算法 以 及 SimpleKMeans 在 第 6.6 节 中 做 了 描述 。 对 
于 EM 实现 ， 用 户 可 指定 需要 产生 多 少 聚 类 ， 否 则 所 用 的 算法 可 通过 交叉 验证 来 决定 ， 在 这 种 
情况 下 ， 折 的 数量 固定 为 10 (除非 训练 实例 少 于 10 个 )。 用 户 可 指定 循环 次 数 的 最 大 值 ， 并 且 
为 正常 的 密度 计算 设 定 可 允许 的 最 小 标准 差 。SimpleKMeans 使 用 均值 来 诊 类 数据 ; 聚 类 的 数 
量 通 过 一 个 参数 指定 。Cobweb 实 现 了 用 于 名 词性 属性 的 Cobweb 算 法 和 用 于 数值 性 属性 的 
Classit 算 法 。 对 于 合并 和 分 割 运算 符 的 排序 及 优先 权 来 说 ， 原 始 的 Cobweb 与 Classit 报 告 中 不 
尽 相 同 〈 这 里 多 少 有 些 歧 义 )。 该 实现 总 是 先 比较 四 种 不 同 的 处 理 新 实例 的 方式 ， 然 后 选择 其 
中 最 好 的 : 将 其 与 最 佳 主体 节点 (host) 相 加 ， 使 其 成 为 一 个 新 的 叶 ， 将 两 个 最 佳 主体 节点 合 
并 后 再 将 其 加 入 合并 后 的 节点 ， 分 割 最 佳 主体 节点 然后 将 其 加 入 分 割 后 的 节点 之 一 。4cuipy 和 
cutoff BR 








表 10-7 MAME 
名 称 功 能 
EM 使 用 期 望 最 大 化 进行 聚 类 
Cobweb 实现 Cobweb 和 Classit 聚 类 算法 
FarthestFirst 使 用 由 远 端 开始 遍历 (farthest first traversal) 算法 进行 聚 类 
MakeDensityBasedCluster 将 一 个 聚 类 器 包装 ， 使 其 返回 分 布 和 密度 
SimpleK Means 使 用 /均值 方法 进行 聚 类 


FarthestFirst 实 现 Hochbaum 和 Shmoys (1985 年 ) 远 端 优先 遍历 算法 ，Sanjoy Dasgupta 
(2002 年 ) 曾 做 过 引述 ; 它 是 一 个 快速 ， 简 单 ， 以 均值 为 模型 的 近似 的 聚 类 器 。 
MakeDensityBasedCluster 是 一 个 元 察 类 器 ， 它 包装 一 个 聚 类 算法 ， 使 其 返回 一 个 概率 分 布 和 密 
度 。 它 为 每 个 豪 类 拟 合 一 个 离散 分 布 ， 或 一 个 对 称 的 正 态 分 布 (其 最 小 标准 差 是 一 个 参数 )。 


10.7 关联 规则 学 习 器 


Weka 有 三 种 关联 规则 学 习 器 ， 如 表 10-8 中 所 列 。Apriori 实 现 Apriori 算 法 (第 4.5 节 )。 它 
由 数据 项 的 最 少 支持 度 100% 开 始 ， 逐 步 递 减 5% ， 直 到 至 少 有 所 要 求 的 最 小 置信 度 为 0.9 的 10 
个 规则 , 或 者 支持 度 达 到 了 10% 的 较 低 极限 , 二 者 以 先 出 现 为 计 。( 这 些 默认 值 是 可 被 修改 的 。) 
共有 四 种 不 同 的 因素 用 于 决定 排序 规则 : 置信 和 度 ， 即 同时 被 前 提 条 件 和 结论 所 涵盖 的 范例 比 
Bl (在 第 4.5 节 中 称 为 精确 度 ) ; 提升 度 ， 即 等 于 置信 度 除 以 支持 度 (在 第 4.5 节 中 称 为 涵盖 
度 ) ; 平衡 度 ， 在 前 提 条 件 和 结论 是 统计 独立 的 条 件 下 ， 被 前 提 条 件 和 结论 所 同时 涵盖 的 超 
出 期 望 值 的 那 部 分 范例 的 比例 ;可 信和 度 ， 一 种 由 Brin 等 (1997 年 ) 确立 的 测量 法 。 用 户 可 以 
指 一 个 显著 性 级 别 ， 规 则 将 会 在 这 个 级 别 上 进行 显著 性 测试 。 


A 
oo 





10-8 关联 规则 学 习 器 


名 R 功 能 
Apriori 用 Apriori 算 法 寻找 关联 规则 
PredictiveApriori 找 出 经 过 预测 精度 排序 的 关联 规则 
Terius 确认 指引 下 的 关联 或 分 类 规则 的 发 现 


PredictiveApriori 将 置信 度 和 支持 度 合并 为 预测 精度 而 成 为 单一 度 测量 法 (Sheffer, 2001 
年 )， 然 后 依次 寻找 m 个 最 好 关联 规则 。 对 算法 本 身 来 说 ， 由 于 预测 精度 取决 于 支持 度 冰 ， 该 
算法 不 断 地 提高 该 阔 值 。Terrtiws 根 据 确认 度 来 寻找 规则 (Flach 和 Lachiche，1999 年 )， 它 像 
Apriori 一 样 寻 找 其 结论 中 含有 多 重 条 件 的 规则 ， 但 不 同 的 是 ， 这 些 条 件 相互 间 是 “或 ， 而 不 
是 … 与 的 关系 。 它 可 被 设 定 为 寻找 只 预测 一 个 单独 条 件 或 其 他 事先 预定 的 属性 的 那些 规则 
(例如 ， 分 类 规则 )。 可 由 一 个 参数 来 决定 是 否 允 许 否定 条 件 在 前 提 或 结论 ， 或 两 者 中 同时 出 
现 ; 其 他 参数 控制 着 寻找 规则 的 数量 ， 最 低 确认 度 ， 最 低 涵 盖 度 ， 反 向 实例 (counter- 
instances) 的 最 高 比例 ， 规 则 的 最 大 范围 。 残 缺 值 可 以 匹配 任意 值 ， 或 干脆 不 匹配 ， 或 可 起 
显著 作用 且 可 能 出 现在 规则 中 。 


10.8 属性 选择 


图 10-21 展 示 了 Weka 的 属性 选择 面板 的 局 部 ， 用 户 可 在 上 面 设 定 属性 评估 器 和 搜索 方法 ; 
表 10-9 和 表 10-10 列 出 了 所 有 选项 。 属 性 选择 一 般 通 过 搜索 并 评估 属性 子 集 空 间 来 实现 (第 7.1 
节 )。 这 可 通过 结合 表 10-9 中 的 四 个 属性 子 集 评估 器 的 其 中 之 一 和 表 10-10 中 七 种 搜索 方法 的 
其 中 之 一 来 完成 。 一 个 具有 快速 运行 潜力 但 不 是 很 精确 的 方法 是 ， 对 属性 逐一 评估 然后 进行 
排列 ， 删 除 截止 点 以 下 的 所 有 属性 。 这 可 通过 挑选 表 10-9 中 八 个 单一 属性 评估 器 的 其 中 之 一 ， 
再 使 用 表 10-10 中 的 排序 法 来 完成 。Weka 界 面 允 许 用户 从 表 10-9 中 选 定 一 种 选择 方法 ， 也 可 以 
从 表 10-10 中 选 定 一 种 搜索 方法 ， 如 果 用 户 选择 了 不 适当 的 组 合 ，Weka 界 面 会 反馈 出 错 信息 。 
用 户 可 根据 状态 栏 中 的 指示 到 出 错 日 志 中 查看 信息 (参看 第 10.1 节 的 结尾 部 分 )。 





图 10-21 属性 选择 : 设 定 属性 评估 器 和 搜索 方法 


10.8.1 属性 子 集 评 估 器 


子 集 评估 器 取 一 个 属性 子 集 ， 返 回 指导 搜索 的 一 个 数值 性 信息 。 它 们 的 配置 方法 与 Weka 
的 其 他 对 象 一 样 。CfsSubsetEval 逐 一 评估 每 个 属性 的 预测 能 力 和 它们 之 间 的 重复 程度 ， 然 后 
挑选 那些 与 类 有 高 度 关 联 但 相互 之 间 关 联 程度 却 较 低 的 属性 (第 7.1 节 )。 当 属性 集中 没有 一 
个 属性 和 所 要 加 入 的 属性 的 关联 程度 更 高 时 ， 有 一 个 选项 可 以 令 评 估 器 循环 地 加 入 与 类 有 最 
高 关联 度 的 属性 。 残 缺 值 视 为 一 个 单独 的 值 ， 或 者 根据 出 现 频率 的 比例 将 它 的 出 现 次 数 分 摊 
到 其 他 值 中 。ConsistencySubsetEval 在 训练 数据 映像 到 属性 集 上 时 ， 以 类 值 的 一 致 性 来 评估 属 
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性 。 由 于 任何 -个 属性 子 集 的 一 致 性 不 可 能 比 整 集 的 好 ， 因 此 ， 这 个 评估 器 通常 和 用 于 寻找 
与 整 集 一 致 性 相等 的 最 小 属性 子 集 的 随机 或 穷 举 搜索 法 一 起 使 用 。 

上 面 所 提 到 的 子 集 评估 器 实际 上 是 属性 选择 的 过 滤器 方法 (第 7.1 季 )， 下 面 将 要 介绍 包装 
方法 。CiassifierSubsetEval 使 用 一 个 在 对 象 编辑 器 中 作为 参数 指定 的 分 类 器 来 评估 训练 数据 中 
的 属性 集 ， 或 一 个 单独 旁 置 集中 的 属性 集 。WrapperSubsetEval 也 采用 分 类 器 评估 属性 集 ， 但 
它 应 用 交叉 验证 估计 学 习 方案 在 每 个 属性 集 上 的 正确 率 。 


表 10-9 用 于 属性 选择 的 属性 评估 方法 








名 R 功 能 

属性 子 集 评估 器 CfsSubsetEval 综合 考虑 单一 属性 的 预测 值 和 属性 间 的 重复 度 
ClassifierSubsetEval 用 分 类 器 评估 属性 集 
ConsistencySubsetEval 将 训练 数据 集 映射 到 属性 集 上 来 检测 类 值 

的 一 致 性 

WrapperSubsetEval 使 用 分 类 器 和 交叉 验证 

Ye MEDEA A ChiSquaredAttributeEval 计算 每 个 属性 的 基于 类 的 Xx? 统计 数据 
GainRatioAttributeEval 以 增益 比率 为 依据 的 属性 评估 
InfoGainAttributeEval 以 信息 增益 为 依据 的 属性 评估 
OneRAttributeEval 用 OneR 的 方法 论 来 评估 属性 
PrincipalComponents 进行 重要 组 件 的 分 析 和 转换 
ReliefFAttributeEval JE SRR YEE fii 28 
SVMAttributeEval 使 用 线性 支持 向 量 机 来 决定 属性 值 
SymmetricalUncertAttributeEval LAE BR AS i ae TE D TE TVD EREE I 


表 10-10 用 于 属性 选择 的 搜索 方法 











名 OR 功 能 

搜索 方法 BestFirst 县 有 返 由 的 贪心 登山 式 搜索 

ExhaustiveSearch FERE 

GeneticSearch 使 用 一 个 简单 遗传 的 算法 进行 搜索 

GreedyStepwise 不 具有 返回 的 贪心 登山 式 搜 索 ， 具 有 产生 属性 排序 列表 的 可 

选项 

RaceSearch 使 用 竞赛 搜索 方法 

RandomSearch 随机 搜索 

RankSearch 排列 属性 并 使 用 属性 子 集 评估 器 将 有 潜力 的 属性 进行 排序 
排序 方法 Ranker 按照 属性 的 评估 对 它们 进行 逐一 (而 不 是 按 子 集 ) 排序 





10.8.2 单一 属性 评估 器 


单一 属性 评估 器 与 Ranker 搜 索 方法 一 起 可 用 于 产生 一 个 有 序列 表 ，Ranker 可 从 列表 中 删 
除 -- 个 给 定 的 数字 (后面 会 有 解释 )。 这 些 评估 器 也 可 用 于 RankSearch 方 法 。 
ReliefFAttributeEval 是 基于 实例 的 ， 它 对 实例 进行 随机 采样 ， 并 检查 相 邻 的 具有 相同 的 及 不 同 
的 类 的 实例 (第 7.1 节 )。 恋 评估 器 运行 于 离散 的 及 连续 的 类 的 数据 。 其 参数 可 指明 待 采样 实 
例 数 ， 待 检查 的 邻居 的 数量 ， 是 否 依据 距离 对 邻居 进行 加 权 ， 以 及 一 个 用 于 控制 权 伴随 距离 
所 产生 衰减 的 剧烈 程度 的 指数 函数 。 

InfoGainAttributeEval 通 过 测量 与 类 相关 的 信息 增益 来 评估 属性 。 它 首先 用 基于 MDL 的 离 
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散 方法 离散 数值 性 属性 (也 可 设 定 为 将 属性 二 元 化 而 不 是 离散 )。 该 方法 ， 加 上 下 面 要 谈 到 的 
种 方法 ， 可 将 missing 作 为 -个 单独 的 值 来 处 理 ， 或 者 将 残缺 值 的 数量 与 其 他 值 一 起 按照 与 它 
们 的 频率 成 正比 进 行 分 布 。ChiSguaredAttribnteEval 通 过 计算 与 类 相关 的 统计 来 评估 属性 。 
GainRatiohAttributeEval 评 估 属 性 的 方式 是 通过 测量 这 些 属 性 的 与 类 值 相关 的 增益 比率 。 
SymmetricalUncertAttributeEval 通 过 测量 属性 A 与 类 C 相 关 的 对 称 不 确定 性 进行 评估 (第 7.1 节 )。 
OneRAttribureEval 使 用 OneR 分 类 器 所 采用 的 简单 的 精度 测量 方法 。 它 可 以 像 OneR 一 样 用 
训练 数据 作 评 估 ， 或 应 用 内 部 交叉 验证 ， 折 的 数量 是 一 个 参数 。 它 采用 OneR 的 简单 离散 方法 ， 
最 小 离散 桶 是 TER. 
SVMArribureEval 使 用 递归 属性 排除 及 线性 向 量 机 作 属 性 评估 (第 7.1 节 )。 属 性 是 根据 它 
们 的 系数 大 小 -个 接 -… 个 被 选 定 ， 并 逐一 重新 学 习 。 为 加 快 属性 选择 的 速度 ， 可 在 每 个 阶段 
删除 -定数 量 〈 或 比例 ) 的 属性 。 实 际 上 ， 可 设 定 一 个 比例 以 确保 只 保留 一 定数 量 的 属性 ， 
接 下 来 改 用 固定 数量 属性 的 处 理 方法 ， 如 此 即 可 以 快速 排除 很 多 属性 ， 然 后 集中 更 多 注意 力 
著 虑 剩 下 的 每 个 属性 。 很 多 不 同 的 参数 传递 给 支持 向 量 机 : 复杂 度 、e、 容 许 偏差 及 所 用 的 过 
证 方法 。 
与 其 他 单一 属性 评估 器 不 同 ，PrincipalComponents 转 换 的 是 整个 属性 集 。 新 属性 是 按照 
它们 的 特征 值 的 大 小 排序 的 (第 7.3 告 )。 一 个 可 选项 是 ， 可 通过 挑选 足够 的 特征 向 量 以 构成 
给 定 比 例 的 方差 (默认 值 是 95%)。 用 户 还 可 使 用 该 评估 器 将 经 过 缩减 后 的 数据 转换 回 原来 的 
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10.8.3 搜索 方法 


搜索 方法 遍 访 整个 属性 空间 以 期 找 出 一 -个 好 的 子 集 。 品 质 好 坏 是 通过 选 定 的 属性 子 集 评 
舍 器 来 衡 最 的 。 每 种 搜索 方法 都 可 通过 Weka 的 对 象 编辑 器 进行 配置 。BestFirst 通 过 返回 进行 
贪心 式 息 山 搜索 ， 用 户 可 指定 系统 在 连续 遇 到 多 少 个 未 被 改进 的 节点 后 才 返 回 。 它 可 以 从 一 
个 空 的 属性 集 正 向 搜索 ， 或 从 一 个 满 集 反 向 搜索 ， 或 从 中 间 的 -一 个 点 开始 (由 - 列 属 性 索引 
指定 ) 并 向 前 后 两 个 方向 ， 通 过 考虑 所 有 可 能 的 单个 属性 加 入 及 删除 进行 搜索 。 己 经 评估 过 
的 子 集 将 被 保存 在 高 速 缓冲 存储 器 中 ， 以 提高 效率 ; 缓冲 器 的 大 小 是 一 个 参数 。 

GreedyStepwise 对 属性 子 集 空间 进行 贪心 式 搜索 。 与 BestFirs1 类 似 ， 它 也 可 以 由 一 个 空 
开始 正 向 处 理 或 从 满 集 开始 反 向 处 理 。 与 BestFirsi 不 同 的 是 ， 它 不 返回 ， -日 加 入 或 删除 最 
佳 剩余 属性 导致 评估 度量 下 降 时 ， 它 能 够 及 时 终止 。 在 另外 - .种 模式 中 ， 它 通过 由 空 至 满 
(或 由 满 至 空 ) 遍历 属性 空间 以 及 记录 属性 被 选 定 的 顺序 来 为 属性 排序 。 用 户 可 指定 要 保留 的 
属性 的 数量 或 设 定 一 个 国 ， 低 于 姜 则 属性 将 被 删除 。 

可 与 ClasstfierSubserEval 一 起 使 用 的 RaceSearech 用 竞赛 搜索 法 来 计算 竞争 属性 子 集 的 交叉 
验证 误差 (第 7.1 季 )。 第 7.1 节 所 描述 的 四 种 不 同 的 搜索 已 经 实现 ， 正 向 选择 ， 反 向 删除 ， 模 
式 搜索 和 排序 竞赛 。 对 于 最 后 -一 项 来 说 ， 一 个 单独 的 属性 评估 器 ( 读 评 估 器 也 可 被 指定 ) 用 
于 产生 一 个 初始 排序 。 如 果 使 用 正 向 选择 ， 通 过 继续 竞赛 直至 所 有 属性 都 被 选 定 ， 从 而 产生 

个 有 序 守 属 性 列表 也 是 可 能 的 ， 排 好 的 序列 与 属性 被 加 入 列表 中 的 顺序 相 一 致 。 与 
GreedyStepvive - 样 ， 用户 也 可 指定 要 保留 的 属性 的 数量 ， 或 设 定 NR, RU a 
删除 。 

GeneticSearch 利 用 个 简单 的 遗传 算法 (Goldberg，1989 年 )。 它 的 参数 包括 人 口 数 量 ， 
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世代 的 数量 ， 交 叉 与 突变 的 概率 。 作 为 出 发 点 ， 用 户 可 指定 一 个 属性 索引 列表 ， 它 将 成 为 起 
始 人 群 的 -一 个 成 员 。 进 展 报 告 是 按照 每 一 定数 量 的 世代 产生 的 。RandomSearch 随 机 搜索 属性 
子 集 空间 。 如 果 已 有 一 个 初始 集 ， 它 会 搜索 与 初始 状态 相 比 有 改善 (或 等 同 )， 并 且 含 有 较 少 
(或 同样 数量 ) 的 属性 。 否 则 ， 它 会 从 一 个 随机 点 开始 搜索 并 报告 所 发 现 的 最 佳 子 集 。 将 所 有 
属性 置 人 初始 集中 ， 即 得 出 Liu 和 Sectiono ( 1996 年 ) 的 概率 特征 选择 算法 。 用 户 可 决定 对 多 
大 比例 的 搜索 空间 进行 探索 。ExhaustiveSearch 由 空 集 开始 搜索 属性 子 集 的 全 部 空间 ， 并 报告 
所 发 现 的 最 佳 子 集 。 如 果 已 提供 了 一 个 初始 集 ， 它 会 从 该 起 始点 开始 反 向 搜索 并 报告 最 小 的 
RERE (或 等 同 ) 评估 的 最 小 的 子 集 。 

RarnkSearch 首 先 用 一 个 单一 属性 评估 器 对 属性 进行 排列 ， 然 后 用 一 个 属性 子 集 评估 器 对 
有 潜力 的 子 集 进行 排序 。 与 通常 做 法 -- 样 ， 后 者 在 图 10-21 顶 部 的 框 中 指定 ， 属 性 评估 器 在 
RankSearch 的 对 象 编辑 器 中 是 作为 一 个 特性 指定 的 。 它 首先 用 单一 属性 评估 器 对 属性 进行 排 
列 ， 然 后 用 子 集 评估 器 来 评估 不 断 膨胀 的 子 集 ， 最 佳 属性 。 最 佳 属性 加 上 下 一 个 最 佳 属性 ， 
等 等 ， 不 断 汇报 最 好 的 子 集 。 这 种 进程 具有 较 低 的 运算 复杂 度 : 两 种 评估 器 被 调用 的 次 数 与 
属性 的 数量 呈 线 性 关系 。 如 果 使 用 简单 的 单一 属性 评估 器 (例如 ，GainRatioAhttribureEval)， 
选择 起 来 会 非常 快 。 

最 后 我 们 来 描述 Ranker， 正 如 前 面 提 到 的 ， 它 不 是 一 个 属性 子 集 的 搜索 方法 ， 而 是 一 个 
用 于 单个 属性 排序 的 方案 。 它 根据 属性 的 个 体 评估 对 这 些 属性 进行 排列 ， 且 必须 与 表 10-9 后 
半 部 分 列 出 的 单一 属性 评估 器 中 的 一 种 联合 使 用 ， 它 不 能 与 篇 性子 集 评估 器 -起 使 用 。 
Ranker 不 只 是 对 属性 排序 ， 它 还 通过 删除 序 位 较 低 的 属性 进行 属性 选择 。 用 户 可 设 定 一 个 截 
止 阐 ， 阔 以 下 的 属性 将 被 删除 ， 或 指明 要 保留 的 属性 的 数量 。 用 户 还 可 指定 - - 些 特定 的 属性 ， 
无 论 其 序 位 高 低 ， 一 律 保留 。 





#11 Knowledge Flow 界面 


通过 知识 流 (Knowledge Flow) 界面 ， 用 户 从 工具 条 中 选择 Weka 组 件 ， 这 些 组 件 被 置 于 
设计 画布 上 ， 连 接 成 一 个 处 理 和 分 析 数 据 的 具有 方向 性 的 流程 图 。 知 识 流 界面 为 那些 喜欢 从 数 
据 是 如 何在 系统 中 流动 的 这 样 的 角度 出 发 来 思考 问题 的 用 户 提供 了 探索 者 之 外 另外 一 种 选择 。 
它 还 允许 将 配置 的 设计 与 执行 应 用 于 数据 流 (stream data) 的 处 理 。 探 索 者 界面 则 无 法 做 到 这 
一 点 。 用 户 可 通过 从 图 10-3a 所 示 面 板 底 部 的 选项 中 选择 KnowledgeFlow 来 启动 知识 流 界面 。 


11.1 开始 着 手 


下 面 这 个 例子 分 步骤 详细 介绍 了 载 人 ARFF 文 件 及 使 用 J4.8 进 行 交 又 验 证 。 我 们 会 描述 如 
何 生成 图 11-1 中 所 示 的 最 终 配置 。 首 先 ， 通 过 单 击 DataSource 标 签 ( 顶 部 工具 条 最 右 侧 ) 并 从 
工具 条 中 选择 4RFF7Loader 来 生成 一 个 数据 源 。 鼠 标的 光标 变 成 十 字 交 叉 表明 用 户 此 时 应 该 放 
置 组 件 。 在 画布 上 任意 一 点 单 击 ， 一 个 ARFF 载 入 器 图 标的 复制 件 就 会 随 之 出 现 。 要 将 此 载 和 
器 与 一 个 ARFF 文 件 连 接 起 来 ， 右键 单 击 载 和 器 得 到 如 图 11-2a 所 示 的 弹出 菜单 。 单 击 
Configure 得 到 图 11-2b 中 的 文件 浏览 器 ， 用 户 可 从 中 选择 想 要 的 ARFF 文 件 。File Format 下 拉 
菜单 令 用 户 可 以 选择 不 同类 型 的 数据 ， 例 如 ， 电 子 数据 表 文件 。 





图 11-1 知识 流 界 面 


现在 我 们 用 一 个 ClassAssigner 对 象 来 指定 哪个 属性 是 类 。 在 Evaluation 面 板 上 ， 单 击 
Evaluation 标 签 、 选 定 ClasshAssigner， 然 后 将 其 置 于 画布 上 。 下 面 将 数据 源 与 类 指定 器 连接 起 
来 ， 右 键 单 击 数据 源 图 标 并 从 菜单 中 选择 dataset， 如 图 11-2a 所 示 。 一 条 类 似 橡 皮 筋 的 线 会 出 
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现 。 将 鼠标 移 至 类 指定 器 组 件 并 左 键 单 击 。 一 条 标记 为 dataset 的 红线 随 之 出 现 并 将 两 个 组 件 
连接 起 来 。 连 接 好 类 指定 器 后 ， 右 键 单 击 它 来 选择 类 ，( 从 出 现 的 菜单 中 ) 选 定 Configure， 并 
键入 类 属性 的 位 置 。 





a) 右键 单 击 菜单 b) 由 Configure 菜 单 中 条 目 所 得 到 的 文件 浏览 器 


图 11-2 ”配置 一 个 数据 源 


我 们 用 J48 分 类 器 来 进行 交叉 验证 。 在 数据 流 模型 中 ， 我 们 首先 连接 
CrossValidationFoldMaker， 生 成 一 些 可 供 分 类 器 运行 的 折 ， 然 后 将 其 输出 结果 传递 给 代表 .148 
的 一 个 对 象 。CrossValidationFoldMaker 可 在 Evaluation 面 板 上 找到 。 将 其 选 定 ， 置 于 画布 上 ， 
再 通过 右键 单 击 类 指定 器 及 从 菜单 (该 菜单 与 图 11-2a 中 的 很 相似 ) 中 选择 dataset 的 方式 将 
CrossValidationFoldMaker 与 类 指定 器 连接 起 来 。 下 一 步 在 Classifiers 面 板 上 选 定 J48， 再 将 一 
个 J48 组 件 置 于 画布 上 。 因 为 有 很 多 不 同类 型 的 分 类 器 ， 用 户 必 须 滚动 工具 条 才能 找到 J48。 
像 前 面 一 样 将 J48 与 交叉 验证 折 生 成 器 连接 起 来 ， 但 这 一 次 要 做 双重 连接 ， 从 交叉 验证 折 生 成 
器 弹出 的 菜单 中 首先 选择 trainingSet， 然 后 选 testSet。 下 一 步 在 Evaluation 面 板 上 选择 
ClassifierPerformanceEvaluator, 从 右键 单 击 148 弹 出 菜单 中 选择 batchClassifier， + 
ClassifierPerformanceEvaluator 与 J]48 连 接 起 来 。 最 后 ， 在 Visualization 工 具 条 上 把 一 个 
TextViewer 组 件 置 于 画布 上 ， 性 能 评估 器 从 弹出 的 菜单 中 选择 text， 将 分 类 器 性 能 评估 器 与 
TextViewer 连 接 起 来 。 

到 目前 为 止 ， 除 了 还 缺少 图 形 查 看 器 外 ， 其 他 配置 与 图 11-1 所 示 一 样 。 从 ARFF 载 和 器 的 
弹出 菜单 中 (图 11-2a) 选择 Start loading, ， 开 始 流程 的 运行 。 对 于 一 个 小 型 数据 集 ， 运 行 过 程 
很 快 就 完成 了 ， 如 果 输 入 的 数据 很 大 ， 用 户 就 会 看 到 一 些 动画 图 标 ， 例 如 ，J48 上 的 树 开 始 生 
长 ， 以 及 性 能 评估 器 上 的 对 勾 标 记 开始 办 动 。 运 行 过 程 信息 出 现在 界面 底部 的 状态 栏 中 。 从 
文本 查看 器 的 弹出 菜单 中 选择 Show results， 在 一 个 单独 的 窗口 中 会 看 到 与 探索 者 中 看 到 的 同 
样 形式 的 交叉 验证 结果 。 

欲 将 本 例 演示 完整 ， 加 入 一 个 GraphViewer 并 将 它 与 748 图 形 输出 相连 接 ， 可 以 看 到 为 交 
又 验证 的 每 个 折 所 生成 的 树 的 图 形 化 表现 形式 。 加 入 这 个 额外 的 组 件 并 重新 进行 交叉 验证 后 ， 
从 弹出 菜单 中 选择 Show results， 即 可 生成 一 列 树 ， 每 棵 树 分 别 对 应 交叉 验证 的 一 个 折 。 通 过 
生成 交叉 验证 的 折 并 将 它们 传递 给 分 类 器 ， 知 识 流 模型 提供 了 一 种 方式 将 所 得 结果 与 每 个 折 
联系 起 来 。 探 索 者 无 法 做 到 这 一 点 : 探索 者 只 是 将 交叉 验证 看 作 一 种 应 用 于 分 类 器 的 输出 结 
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果 的 评估 方法 。 
11.2 知识 流 组件 


用 户 已 经 通过 探索 者 熟悉 了 知识 流 中 的 大 部 分 组 件 。Classifiers 面 板 包 含 了 Weka 中 所 有 的 
分 类 器 、Filters 面 板 中 包含 的 是 过 滤器 ，Cilusters 面 板 中 包含 察 类 器 。 可 能 的 数据 源 种 类 有 
ARFF 文 件 ， 由 电子 数据 表 导 出 的 逗号 分 隔 的 文件 ，C4.5 文 件 格式 ， 以 及 一 个 用 于 载 人 已 经 被 
作为 一 个 Java 对 象 的 实例 存储 起 来 的 数据 文件 的 串 行 化 实例 载 和 器。 组 件 中 还 包含 能 够 被 探 
索 者 支持 的 文件 格式 的 数据 接收 器 及 数据 源 。 另 外 还 有 一 个 数据 接收 器 和 一 个 可 连接 至 数据 

列 于 表 11-1 中 的 可 视 化 及 评估 组 件 到 目前 为 止 还 未 涉及 到 。 在 可 视 化 组 件 一 栏 中 ， 
DaiaVyisualizer 弹 出 一 个 面板 可 将 数据 可 视 化 成 一 个 如 图 10-6b 所 示 的 二 维 稀 朴 点 图 ， 用 户 可 在 
面板 上 选择 需要 显示 的 属性 。ScatterPlotMatrix 可 为 每 对 属性 弹出 一 个 二 维 稀疏 点 图 的 矩阵， 
如 图 10-16a 所 示 。AttributeSummarizer 可 产生 一 个 类 似 图 10-3b 右 下 角 所 显示 的 柱状 图 矩阵 ， 
其 中 每 ~- 个 柱状 图 对 应 一 个 属性 。ModelPerformanceChart 用 于 绘制 ROC 曲 线 及 其 他 阀 曲 线 。 
GraphViewer 可 弹出 一 个 如 图 10-6a 所 示 的 用 于 可 视 化 树 状 模 型 的 面板 。 如 前 所 述 ， 用 户 可 缩 
放 ， 摇 动 及 可 视 化 节点 上 的 实例 数据 (如果 已 经 学 习 算法 存储 下 来 的 话 )。 


表 11-1 可 视 化 和 评估 组 件 











名 K 功 能 

可 视 化 DataVisualizer fi 4S RRS BE oy ALE Bete 
ScatterPlotMatrix Ai BB 
AttributeSummarizer HRE., SEP HER RD SE 
ModePerformanceChart 绘制 ROC 及 其 他 阀 曲 线 
TextViewer 将 数据 或 模型 可 视 化 为 文本 
GraphViewer 可 视 化 树 状 模型 
StripChart 显示 -个 可 滚动 的 数据 点 阵 

评估 TrainingSetMaker 由 数据 集 生成 一 个 训练 集 
TestSetMaker 由 数据 集 生成 一 个 测试 集 


CrossValidationFoldMaker 
TrainTestSplitMaker 
ClassAssigner 

Class ValuePicker 
ClassifierPerformanceEvaluator 
IncrementalClassifierEvaluator 
ClustererPerformanceEvaluator 


PredictionAppender 


将 一 个 数据 集 分 割 成 不 同 的 折 

将 “个 数据 集 分 割 成 训练 和 测试 集 
将 属性 中 的 某 一 个 指定 为 类 

为 肯定 类 选择 - -个 值 

为 批量 评估 搜集 评估 统计 数据 

为 递增 评估 搜集 评估 统计 数据 

为 察 类 器 搜集 评估 统计 数据 

将 分 类 器 的 预测 附加 到 -个 数据 集中 


SiripChart 是 一 个 新 的 专门 用 于 递增 学 习 的 可 视 化 组 件 。 如 果 与 下 面 要 讨论 的 
lncrementalClassifierEvaluator 联 合 起 来 使 用 ，StripChart 可 显示 一 个 用 于 图 示 精 确 度 的 学 习 曲 
线 ， 既 显示 百分比 精确 度 ， 又 可 给 出 均 方 根 概率 误差 ， 二 者 都 与 时 间 相 对 应 。 它 所 显示 的 是 
一 个 可 水 平 滚动 显 出 最 新 结果 的 固定 大 小 的 时 间 窗 口 。 

Evaluation A RAS HAE | FH 11-189 FERS. TrainingSetMaker#iTestSetMaker al 
将 一 个 数据 集 变 成 一 个 相应 种 类 的 集 。CrossValidationFoldMaker 从 一 个 数据 集中 构建 交叉 验证 
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的 折 ; TrainTestSplitMaker 通 过 保留 数据 集中 的 部 分 数据 用 于 测试 ， 将 数据 集 分 割 成 训练 集 和 
测试 集 。ClasshAssigner 使 得 用 户 可 以 选择 以 哪个 属性 作为 类 。 用 户 可 用 ClassValuePicker 选 择 一 
个 值 ， 该 值 在 产生 ROC 及 其 他 贱 曲线 时 可 作为 肯定 类 。ClassifierPerformanceEvaluator 搜 集 评 
估 统 计数 据 : 它 能 将 文本 评估 传 给 文本 查看 器 以 及 将 阔 曲 线 制 成 性 能 图 表 。 
IncrementalClassifierEvaluator 有 着 与 递增 分 类 器 一 样 的 功能 它 可 计算 运行 方差 ， 等 等 。 
ClustererPerformanceEvaluator © ClassifierPerformanceEvaluator 很 相似 。PredictionAppender[ 人 
一 个 分 类 器 和 一 个 数据 集 作为 输入 ， 并 将 分 类 器 的 预测 附加 到 数据 集中 。 


11.3 配置 及 连接 组 件 


用 户 可 通过 单独 配置 每 个 组 件 ， 然 后 将 它们 连接 起 来 的 方式 生成 知识 流 。 图 11-3 列 出 了 
右键 单 击 不 同 的 组 件 可 得 到 的 典型 的 操作 功能 。 图 中 的 菜单 可 分 为 三 部 分 : Edit, Connections 
和 Actions。Edit 操 作 可 删除 组 件 及 打开 组 件 的 配置 面板 。 配置 分 类 器 和 过 滤器 的 方式 与 它们 
在 探索 者 中 的 配置 方式 一 样 。 数 据 源 是 通过 打开 一 个 文件 (与 我 们 前 面 看 到 的 一 样 ) 进行 配 
置 的 ， 配 置 评估 组 件 则 需要 设 定 类 似 交 叉 验 证 的 折 的 数量 等 参数 。Actions 操 作 则 和 需 视 具体 的 
组 件 类 型 而 定 ， 比 如 从 一 个 数据 源 开始 载 入 数据 ， 或 打开 一 个 窗口 显示 可 视 化 结果 等 。 
Connections 操 作用 于 将 组 件 连 接 到 一 起 ， 连 接 的 方式 是 从 源 组 件 上 选择 连接 类 型 ， 然 后 再 单 
击 目标 对 象 。 不 是 所 有 的 目标 都 是 可 连接 的 : 可 以 被 连接 的 目标 是 高 亮 显 示 的 。 除 非 接 收 连 
接 的 目标 组 件 确 认 所 收 到 的 连接 是 可 行 的 ， 否 则 连接 菜单 中 的 条 目 会 被 禁止 ( 设 成 灰色 )。 


data sink ClassifierPerformance- 
Edit Evaluator 


Configure... 
visualization 
Edt 





图 11-3 知识 流 组 件 的 操作 


有 两 种 可 由 数据 源 开始 的 连接 : dataset 连 接 和 instance 连 接 。 前 者 用 于 批量 操作 ， 适 用 于 
像 J48 一 样 的 分 类 器 ; 后 者 则 用 于 类 似 NaiveBayesUpdateable 的 流 操作 。 数 据 源 组 件 无 法 同时 
提供 两 种 类 型 的 连接 : 一 旦 一 种 连接 被 选 定 ， 另 外 一 种 就 会 被 禁止 。 当 一 个 dataset 连 接 指 向 
一 个 批量 分 类 器 时 ， 该 分 类 器 需要 知道 该 连接 指向 的 是 一 个 训练 集 还 是 测试 集 。 要 做 到 这 一 
点 ， 用 户 必 须 事 先 用 Evaluation 面 板 中 的 TestSetMaker 或 TrainingSetMaker 组 件 将 数据 源 变 成 一 
个 测试 集 或 训练 集 。 另 一 方面 ， 一 个 指向 递增 分 类 器 的 instance 连 接 则 是 直接 建立 的 ， 因 为 该 
流动 的 实例 以 递增 的 方式 更 新 分 类 器 ， 在 训练 和 测试 之 间 没 有 分 别 。 在 这 种 情况 下 ， 预 测 是 
基于 每 个 输入 的 实例 做 出 ， 然 后 并 入 测试 结果 的 ; 接 下 来 ， 该 分 类 器 再 根据 这 个 实例 进行 训 
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练 。 如 果 用 户 将 一 个 instance 连 接 指向 一 个 批量 分 类 器 ， 它 将 会 当 作 一 个 测试 实例 ， 因 为 训练 
无 法 递增 进行 ， 而 测试 则 可 以 。 相 反 ， 用 一 个 dataset 连 接 在 批量 模式 下 测试 一 个 递增 分 类 器 
是 完全 可 行 的 。 

当 一 个 过 滤器 组 件 收 到 来 自 一 个 数据 源 的 输入 时 ， 它 的 连接 将 被 沿 活 ，dataset 或 instance 
连接 即 可 随 之 建立 。jmstance 连 接 不 可 指向 有 指导 过 荐 器 ， 或 那些 无 法 递增 处 理 数 据 的 无 指导 
过 滤器 〈( 例 如 Discretize )。 要 从 一 个 过 滤器 得 到 一 个 测试 集 或 训练 集 ， 用 户 必须 给 该 过 滤器 和 输 
入 相应 类 型 的 数据 集 。 

分 类 器 菜单 中 有 两 种 类 型 的 连接 。 第 一 种 是 graph 和 text 连 接 ， 可 用 图 形 及 文本 的 方式 显 
示 分 类 器 的 学 习 状 态 ， 且 仅仅 在 该 分 类 器 收 到 一 个 训练 集 输入 时 才 被 激活 。 另 外 一 种 连接 称 
为 batchClassifier 和 incrementalClassifier， 访 种 连接 为 性 能 评估 器 提供 数据 ， 并 且 是 在 输入 一 
个 测试 集 时 才 可 油 活 。 哪 种 类 型 的 连接 被 激活 取决 于 该 分 类 器 的 类 型 。 

评估 组 件 是 一 个 大 杂烩 。TrainingSetMaker 和 TestSetMaker 将 一 个 数据 集 变 成 一 个 训练 集 
或 测试 集 。CrossValidationFoldMaker 把 一 个 数据 集 分 成 一 个 训练 集 和 一 个 测试 集 。Classifier 
Performance Evaluator (在 第 11.1 节 的 范例 中 使 用 过 ) 为 可 视 化 组 件 产生 文本 及 图 形式 输出 。 
其 他 评估 组 件 操 作 与 过 滤器 相 类 似 : 它们 根据 输入 数据 随后 分 别 激活 dataset，instance， 
training set， 或 test set 连 接 (例如 ，ClassAssigner 为 一 个 数据 集 指定 一 个 类 )。 

尽管 一 些 可 视 化 组 件 可 做 出 一 些 类 似 Show results 及 Clear results 的 动作 ， 它 们 却 不 含 连接 。 


11.4 递增 学 习 


知识 流 界 面 从 功能 上 来 说 与 探索 者 大 致 相似 : 用 户 在 两 个 界面 上 可 进行 类 似 的 操作 。 知 
识 流 界面 还 提供 了 一 些 额外 的 功能 ， 例 如 ， 用 户 可 看 到 ]48 为 交叉 验证 的 每 个 折 所 生成 的 树 。 
但 它 真正 的 强项 是 进行 递增 操作 。 

Weka 有 好 几 个 分 类 器 可 递增 处 理 数 据 : 40DE，,， 一 个 杆 素 贝 叶 斯 版 本 
(NaiveBayesUpdateable), Winnow ($9) ,和 基于 实例 的 学 习 器 (1B7，7BK， KStar, LWL), 
元 学 习 器 RacedinrcrementalLogitBoost 以 递增 的 方式 进行 操作 (10.5 节 )。 所 有 可 逐一 处 理 实例 
的 过 滤器 都 是 递增 的 : Add, AddExpression, Copy, FirstOrder, Makelndicator, 
MergeTwoValues, NonSparseToSparse, NumericToBinary, NumericTransform, Obfuscate, 
Remove, RemoveType, RemoveWithValues, SparseToNonSparse , Swap Values. 

如 果 在 知识 流 界面 中 连接 到 一 起 的 所 有 组 件 都 能 进行 递增 操作 ， 那 么 最 终 的 学 习 系 统 也 
可 以 。 它 不 像 探索 者 那样 ， 在 学 习 过 程 开始 以 前 就 读 取 数据 集 。 相 反 ， 数 据 源 组 件 对 输入 实 
例 进行 逐个 读 取 并 传 入 知识 流 链 。 

图 11-4a 显 示 了 一 个 进行 递增 操作 的 配置 。 一 个 instance 连 接 从 载 入 器 指向 了 一 个 可 更 新 村 
素 贝 叶 斯 分 类 器 。 该 分 类 器 的 文本 输出 传 给 了 可 显示 该 模型 文本 描述 的 查看 器 。 另 外 ，-- 个 
incrementalClassifier 连 接 指 向 了 相应 的 性 能 评估 器 。 这 样 就 生成 了 一 个 Chart 类 型 的 输出 ， 该 
输出 以 管道 的 方式 传 给 了 一 个 条 状 图 表 可 视 化 组 件 以 产生 一 个 可 滚动 数据 点 图 。 

图 11-4b 给 出 了 条 状 图 表 输 出 。 它 显示 了 与 时 间 相对 应 的 精确 度 和 均 方 根 概率 误差 。 随 着 
时 间 的 推移 ， 整 个 点 状 图 (包括 坐标 轴 ) 会 向 左 移动 以 便 在 右 侧 为 新 数据 让 出 空间 。 当 代表 
时 间 点 0 的 垂直 轴 无 法 再 向 左 移动 时 ， 它 会 停止 并 且 它 的 起 始 时 间 点 由 0 开始 增加 以 便 与 右 侧 
的 数据 保持 同一 步调 。 因 此 当 该 图 表 呈 满 屏 状态 时 ， 它 显示 的 是 一 个 最 接近 当前 时 间 单位 的 
窗口 。 该 条 状 图 表 可 被 配置 从 而 改变 x 坐 标 轴 上 显示 的 实例 数量 。 
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a) 配置 





b) 条 状 图 输出 


图 11-4 一 个 递增 操作 的 知识 流 
这 种 具体 的 知识 流 配 置 可 处 理 任意 大 小 的 输入 文件 ， 即使 是 那些 计算 机 的 主 存储 器 无 法 


容纳 的 文件 也 可 以 。 然 而 ， 这 取决 于 分 类 器 是 如 何 进行 内 部 操作 的 。 例 如 ， 即使 分 类 器 是 递 ”[434 
增 的 ， 许 多 基于 实例 的 学 习 器 还 是 将 整个 数据 集 存储 在 学 习 器 中 。 





po 





第 12 章 Experimenter 界 面 


探索 者 和 知识 流 环境 可 帮助 用 户 确定 机 器 学 习 方 案 在 给 定 的 数据 集 上 性 能 到 底 如 何 。 但 
严肃 认真 的 研究 工作 涉及 到 大 量 的 实验 ， 所 涉及 到 的 通常 是 在 不 同 的 数据 集 上 用 不 同 的 参数 
设置 运行 不 同 的 学 习 方 案 ， 而 这 两 种 界面 实在 是 不 适合 这 项 工作 。 实 验 者 (Experimenter) 界 
面 使 得 用 户 可 设 定好 大 型 实验 ， 令 其 开始 运行 ， 然 后 即 可 离开 ， 当 实验 完成 后 再 回来 分 析 所 
搜集 到 的 性 能 统计 数据 。 这 使 得 实验 过 程 自动 化 。 统 计数 据 可 以 以 ARFF 格 式 存储 ， 且 这 些 统 
计数 据 本 身 也 可 作为 进一步 数据 挖 据 的 课题 。 用 户 可 在 图 10-3a 中 所 示 面 板 底部 的 选项 中 选择 
Experimenter， 启 动 该 界面 。 

知识 流 界面 通过 允许 不 将 整个 数据 集 一 次 完全 载 信 ， 而 进行 机 器 学 习 运 行 的 办 法 来 解决 
有 限 空间 的 问题 ， 而 实验 者 所 超越 的 则 是 时 间 上 的 限制 。 它 含有 可 供 Weka 高 级 用 户 将 运算 负 
荷 通过 Java 远 程 方式 调用 手段 分 布 到 多 个 机 器 上 运行 的 机 制 。 用 户 可 设 定好 大 型 实验 ， 然 后 
让 它们 自行 运行 。 


12.1 开始 着 手 


作为 一 个 范例 ， 我 们 将 OnreR 和 ZeroR 作 为 基准 方法 ， 并 将 它们 与 J4.8 决 策 树 方法 通过 蔓 尾 
花 数 据 集 做 个 比较 。 实验 者 有 三 个 面板 : Setup，Run 和 Analyze。 图 12-1a 展 示 了 第 一 个 : 用 户 
可 通过 顶部 的 标签 选择 其 他 两 个 。 在 图 中 ， 实 验 是 已 经 设 定好 的 。 要 设 定 一 个 实验 ， 首 先 单 
击 New (右上 角 ) 开始 一 个 新 实验 (并 排 的 其 他 两 个 按钮 是 用 来 存储 实验 及 打开 一 个 以 前 存 
储 过 的 实验 )。 然 后 ， 在 下 方 的 横 栏 中 为 实验 结果 选择 存储 目的 地 ， 图 中 选择 的 文件 是 
Experiment1， 并 选择 CSV file。 再 往 下 选择 数据 集 ， 这 里 只 有 一 个 侯 尾 花 数据 集 。 在 数据 集 框 
的 右 侧 ， 选 择 将 要 测试 的 算法 ， 有 三 个 。 单 击 4dd new 按 钮 可 得 到 一 个 标准 的 Weka 对 象 编辑 
器 ， 从 中 用 户 可 选择 并 配置 一 个 分 类 器 。 重 复 这 个 操作 将 图 中 的 三 个 分 类 器 添加 进来 。 至 此 ， 
实验 已 设 定好 。 图 12-1a 中 的 其 他 设置 都 是 默认 的 。 若 想 重新 配置 一 个 已 经 在 列表 中 的 分 类 器 ， 
用 户 可 点 击 Edir selected 按 钮 。 用 户 还 可 以 将 用 于 某 个 具体 分 类 器 的 选项 以 XML 的 格式 存储 
起 来 供 以 后 使 用 。 


12.1.1 运行 一 个 实验 


要 运行 一 个 实验 ，、 单 击 Run 标 签 ， 弹出 的 面板 上 有 一 个 Start 按 钮 (及 其 他 -- 些 组 件 ) ; 单 
击 它 。 操 作 进 行 完毕 后 会 显示 一 个 简单 的 报告 。 实 验 结果 存在 文件 Experimentl.csy 中 。 文 件 
的 前 两 行 显示 在 图 12-1b 中 : 它们 是 CSV (去 号 分 隔 的 值 一 一 译 者 注 ) 格式 ， 且 可 直接 读 和 一 
个 电子 数据 表 ， 所 形成 的 数据 表格 的 前 面部 分 显示 在 图 12-1c 中 。 每 一 行 代表 一 个 10 折 交 又 验 
证 中 的 1 折 ( 见 Fold 列 )。 交 又 验证 为 每 个 分 类 器 ( 见 Scheme 列 ) 运行 10 次 ( 见 Run 列 )。 因 此 
该 文件 中 每 个 分 类 器 对 应 100 行 ， 共 300 行 (还 要 再 加 上 一 行文 件 的 头 )。 每 行 都 含有 大 量 信息 ， 
实际 上 是 46 列 ， 包 括 提供 给 机 器 学 习 方案 的 选项 ;训练 和 测试 实例 的 数量 ; 被 正确 及 错误 分 
类 以 及 未 被 分 类 的 实例 的 数量 (和 百分比 ) ; 平均 绝对 误差 ， 均 方 根 差 及 很 多 其 他 信息 。 
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a) 设 定 实验 


Dataset, Run, Fold, Scheme, Scheme_options, Scheme_version_ID,Date_time, Number 
_of_training_instances,Number_of_testing_instances, Number_correct ,Number_ 
incorrect ,Number_unclassified, Percent_correct , Percent_incorrect, Percent_u 
nclassified, Kappa_statistic,Mean_absolute_ error, Root_mean_squared_error,R 
elative_absolute_error,Root_relative_squared_error,SF_prior_entropy,SF_sc 
heme_entropy, SF_entropy_gain,SF_mean_prior_entropy, SF_ mean_scheme_entrop 
y,SF_mean_entropy gain, KB_information, KB.mean_information, KB_relative_info 
rmation,True_positive_rate,Num_true_positives, False_positive_rate,Num_fal 
se_positives, True_negative_rate,Num_true_negatives, False_negative_rate,Nu 
m_false negatives, IR_precision, IR_recall, F_measure, Time_training, Time_tes 
ting, Summary, measureTreeSize, measureNumLeaves , measureNumRules 


iris,1,1,weka.classifiers.trees.J48,'-C 0.25 -M 2',-217733168393644444,2. 
00405230549E7,135.0,15.0,14.0,1.0,0.0,93.33333333333333,6.666666666 66666 
7,0.0,0.9,0.0450160137965016, 0.1693176548766098, 10 .128603104212857, 35.9176 
98581356284, 23 .77443751081735, 2.632715099281766, 21.141722411535582,1.5849 
625007211567, 0.17551433995211774,1.4094481607690388, 21.615653599867994,1. 
4410435733245328, 1363 .79589990507,1.0,5.0,0.0,0.0,1.0,10.0,0.0,0.0,1.0,1. 
0,1.0,0.0070,0.0,'Number of leaves: 4\nSize of the tree: 7\n',7.0,4.0,4.0 


b) 结果 文件 


A PE WS SE SP OS E 


Number Number Number Percent Percent 
correct incorrect unclassified correct incorrect! 
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E. 
Data- 
set 
iris 
Ine 
ints 
ins 
iris 
ins 
iris 
iris ， 
ints 
iris 
iris 
ins | 
iis.. 
e | 
ins 





c) 含有 结果 的 电子 数据 表 
图 12-1 一 个 实验 
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电子 数据 表 中 有 极为 丰富 的 信息 ， 却 很 难 消化 。 具 体 来 说 ， 就 是 很 难 回答 上 面 提 到 
的 这 个 问题 : 到 底 J4.8 与 基准 方法 OneR 及 ZeroR 比 较 起 来 如 何 ? 对 此 我 们 要 用 到 Analyze 


面板 。 


12.1.2 分 析 所 得 结果 

我 们 将 输出 结果 制 成 CSV 格 式 是 为 了 显示 图 12-1c 中 的 电子 数据 表 。 实验 者 通常 将 输出 制 
成 ARFF 格 式 。 用 户 还 可 以 让 文件 名 为 室 ， 在 这 种 情况 下 ， 实 验 者 会 将 结果 存在 一 个 临时 文 
件 中 。 

Analyze 面 板 显 示 在 图 12-2 中 。 要 分 析 刚 刚 进行 的 实验 ， 单 击 靠近 顶部 右 侧 的 Experiment 
按钮 ; 否则 ， 用 户 还 可 以 提供 一 个 含有 其 他 实验 的 结果 的 文件 进行 分 析 。 然 后 单 击 Perform 
test (靠近 左下 方 )。 随 后 ， 第 一 个 学 习 方 案 (J48) 与 其 他 两 个 (OneR 和 ZeroR) 相 比 较 的 有 
关 性 能 的 统计 显著 性 测试 的 结果 就 显示 在 右 侧 较 大 的 面板 中 。 








3 
2 0.05 (two tailed) 
2/10/05 10:11 AN 


(1) trees.J4 | (2) rules (3) rules fi 
Presb este Sb Errno bebe 
(100) 94.73 | 93. 33 
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图 12-2 图 12-1 中 的 实验 的 统计 测试 结果 


我 们 比较 的 是 百分比 准确 率 统计 : 这 是 由 图 12-2 中 左 侧 的 比较 字段 默认 选 定 的 。 三 种 学 
习 方 案 是 作为 一 个 小 表格 的 表 头 水 平 排列 的 ， 分 别 用 数字 标示 为 (1)、(2) 和 (3)。 表 中 列 
的 标签 在 下 方 被 重新 列 出 : trees.J48，rules.OneR，rules.ZeroR， 只 是 为 了 防止 万 一 表 头 中 没 
有 足够 的 空间 列 出 这 些 名 字 。 方 案 名 字 旁 边 的 那些 难以 预测 的 整数 表明 所 用 方案 的 版 本 。 默 
认 条 件 下 它们 都 会 列 出 ， 以 避免 在 使 用 同一 算法 的 不 同 版 本 所 生成 的 结果 之 间 产 生 混淆 。 在 
Bere (iris) 行 开始 的 括号 中 的 值 (100) 是 实验 的 运行 次 数 : 10 次 10 折 交叉 验证 。 
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:个 方案 的 百分比 正确 率 显示 在 图 12-2 中 : 方案 1 是 94.73 锡 ， 方 案 2 是 93.53 ， 和 方案 3 是 
33.33% 。 结 果 旁 边 的 符号 (vA) 指明 该 结果 在 所 指定 的 统计 显著 性 水 平 上 (当前 是 0.05 ， 
RASA), PF (v) 还 是 差 于 (*) 基 淮 方案 ， 在 本 例 中 基准 方案 是 J4.8。 本 例 中 所 用 的 是 
5.5 节 中 的 纠正 重复 取样 1 测试。 这 里 ,方案 3 明显 要 比方 案 1 差 ， 因 为 方案 3 的 成 功率 旁边 有 星 
形 标记 。 在 第 2 列 和 第 3 列 的 底部 是 方案 运行 次 数 的 计数 数量 (x/y/z)， 其 中 ，(x) 表示 该 方案 
在 本 实验 中 的 数据 集 上 的 性 能 好 于 基准 方案 的 次 数 ，(y) 表示 二 者 性 能 一 样 、(z) 是 其 性 能 
其 于 基准 方案 的 次 数 。 在 本 例 中 只 用 了 一 个 数据 集 ， 方 案 2 有 1 次 与 方案 1 (基准 方案 ) 相等 ， 
而 方案 3 则 有 1 次 比方 案 1 差 。( 注 释 (w /*) 放 在 第 -- 列 的 底部 ， 帮 助 用 户 记忆 三 种 计数 数量 
x/y/z 的 含义 。) 


12.2 简单 设置 


在 图 12-1a 中 的 Setup 面 板 上、 我们 在 大 多 数 选项 上 都 使 用 了 默认 值 。 图 中 的 实验 类 型 是 10 
折 交 叉 验 证 ， 重 复 10 次 。 用 户 可 在 左 侧 中 部 的 框 中 改变 折 的 数量 ， 及 在 右 侧 中 部 的 框 中 更 改 
重复 次 数 。 实 验 类 型 是 分 类 ; 用 户 也 可 将 其 指定 为 上 回归。 用户 还 可 以 选择 个 以 上 的 数据 集 ， 
这 样 的 话 、 每 种 算法 就 会 依次 应 用 于 每 个 数据 集 ， 并 可 通过 Dara sets first 和 Algorithm first 按 
钒 改变 循环 运行 的 顺序 。 旁 置 法 (holdout) 可 作为 交叉 验证 的 起 代 方 法 。 它 有 两 种 变 体 ， 取 
决 于 实验 时 是 保留 数据 集 的 顺序 还 是 将 数据 随机 化 。 用 户 可 指定 分 割 百分比 (默认 是 2/3 作 为 
训练 集 ，1/3 作 为 测试 集 )， 

实验 的 设置 可 以 存储 起 来 重新 启用 。 用 户 可 按 下 Nores 按 钮 ， 漳 出 个 编辑 窗口 ， 对 所 
做 的 设置 进行 注释 。 严 说 的 Weka 用 户 会 很 快 发 现 ， 在 打开 一 个 实验 后 需要 对 其 进行 修改 ， 
也 许 是 换 -个 新 的 数据 集 或 -个 新 的 学 习 算法 。 能 够 避免 重新 计算 以 前 已 经 取得 过 的 结果 当 
然 要 好 ! 况 日 ， 如 果 所 得 结果 能 够 存储 在 数据 库 而 不 是 ARFF 或 CSV 文 件 中 就 更 好 ， 这 正 是 
我 们 现在 要 做 的 。 在 结果 日 的 地 选择 器 中 选择 JDBC database， 连 接 到 任何 带 有 JDBC 驱 动 
器 的 数据 库 。 用 户 在 这 里 需要 给 出 数据 库 的 URL 并 填写 用 户 名 及 密码 。 要 想 使 这 一 过 程 也 
能 用 于 自己 的 数据 库 ， 用 户 需要 修改 Weka 分 布 包 中 的 weka/experiment/Database Utils.props 
文件 。 如 果 用 户 对 “个 使 用 数据 库 的 实验 做 改动 ， 只 要 以 前 计算 过 的 结果 还 能 从 数据 库 中 取 
出 来 ，Weka 就 会 治 用 它们 。 这 大 大 简化 了 通常 情况 下 可 看 作 是 数据 挖 据 研 究 特 征 的 循环 往 


12.3 高 级 设置 


实验 者 有 “种 高 级 模式 。 单 击 图 12-1a 面 板 顶 部 (Advanced) 则 得 到 如 图 12-3 所 示 的 
超 强 版 本 的 面板 。 该 面板 含有 更 多 的 控制 实验 的 可 选 选项 ， 例 如 ， 包 括 生 成 学 习 曲线 的 能 
力 等 。 然而， 高 级 模式 较 难 运用 ， 且 简单 模式 已 经 可 以 满足 大 多 数 要 求 。 例 如 ， 在 高 级 模 
式 中 ， 有 几 户 可 设置 一 个 循环 用 于 测试 -种 算法 在 一 系列 不 同 参数 值 条 件 下 的 性 能 ， 但 同样 
的 事情 也 可 在 简单 模式 下 ， 通 过 对 该 算法 进行 多 次 测试 ， 每 次 使 用 不 同 的 参数 值 的 方式 完 
成 。 也 许 用 户 真正 用 得 到 高 级 模式 的 地 方 是 设置 一 个 分 布 式 实验 ,我 们 会 在 第 12.5 节 中 进 
行 探 讨 。 
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图 12-3 在 高 级 模式 中 设置 一 个 实验 


12.4 分 析 面 板 


在 前 面 的 讨论 中 ， 我 们 使 用 Analyze 面 板 进行 了 一 种 学 习 方 案 (J48) 与 其 他 两 种 方案 
(OneR 和 ZeroR) 相 比 较 的 统计 显著 性 测试 。 该 测试 基于 误差 率 ， 即 由 图 12-2 中 的 Comparison 
field 决 定 的。 其 他 类 型 的 统计 则 可 由 下 拉 菜 单 中 选取 : 百分比 错误 ， 百 分 比 未 分 类 ， 均 方 根 
误差 表 5-8 中 的 其 他 误差 测量 方法 ， 以 及 不 同 的 粹 值 。 还 有 ， 用 户 可 选中 Show std deviations 
复 选 框 查看 被 评估 的 属性 的 标准 差 。 

使 用 Select base 菜 单 可 将 基准 方案 由 J4.8 改 为 其 他 任何 一 种 学 习 方 案 。 例 如 ， 选 中 OneR 音 
味 着 将 其 他 方案 与 OneR 进 行 比较 。 实 际 上 ， 这 只 能 说 明 OneR 与 ZeroR 在 统计 显著 性 上 有 区 别 ， 
而 OneR 与 148 之 间 却 没有 。 除 了 学 习 方 案 以 外 ，Select base 菜 单 中 还 有 其 他 两 个 选项 : 
Summary 和 Ranking。 前 者 将 每 种 学 习 方 案 与 其 他 方案 逐一 进行 比较 并 列 出 一 个 矩阵 ， 和 矩阵 的 
每 个 格 显 示 的 是 数据 集 的 数量 。 在 这 些 数 据 集 上 ， 一 个 学 习 方 案 的 性 能 要 明显 好 于 其 他 方案 。 
后 者 根据 代表 赢 (>) 和 输 (<) 的 数据 集 的 总 数 对 学 习 方 案 进 行 排序 ， 并 列 出 一 个 队列 表 。 
队列 表 的 第 一 列 显示 的 是 赢 与 输 的 数量 之 差 。 

Row 和 Column 信 息 组 决定 了 比较 矩阵 的 维 数 。 单 击 Select 得 到 一 列 已 经 在 实验 中 测量 过 的 所 有 
属性 ， 即 图 12-1c 中 电子 数据 表 的 每 一 列 的 表 头 。 用 户 可 任意 挑选 其 中 的 项 目 作为 矩阵 的 行 和 列 。 
(用 户 所 做 出 的 选择 不 会 出 现在 Select 框 中 ， 这 是 因为 可 同时 选 定 的 参数 不 止 一 个 。) 图 12-4 列 出 了 
共有 哪些 项 目 被 选中 作为 图 12-2 中 的 行 和 列 。 图 中 的 两 个 列表 显示 了 实验 所 用 的 参数 ( 即 电子 数 
据 表 中 的 列 )。Dataset 被 选 定 为 行 (RIP. TART, AIEEE), Scheme, 
Scheme options 和 Scheme_version_ID 被 选 为 列 (与 通常 一 样 ， 按 住 shift 键 同时 单 击 鼠 标 可 选 定 多 个 
项 目 )。 全 部 三 个 选项 都 可 在 图 12-2 中 看 到 。 实 际 上 ， 它 们 在 底部 的 相关 方案 中 看 得 更 加 清楚 。 
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如 果 将 行 和 列 的 选项 互 换 ， 并 再 次 按 下 Perform test 按 钮 ， 和 矩阵 将 会 翻转 ， 所 得 结果 见 图 
12-4c。 这 里 有 三 行 ， 每 行 对 应 一 种 算法 ， 唯 一 的 一 列 对 应 着 所 用 的 数据 集 。 如 果 把 行 由 
Datase! 换 成 Run， 再 重新 进行 测试 ， 结 果 则 如 图 12-4d 所 示 。Run 指 的 是 交叉 验证 的 运行 次 数 ， 
共有 10 次 ， 所 以 有 10 行 。 每 一 行 的 行 标 后 面 的 括号 中 的 数字 (图 12-4c 中 的 100 和 图 12-4d 中 的 
10) 是 对 应 着 该 行 的 结果 的 数量 ， 即 显示 在 所 对 应 行 的 每 个 格 中 的 平均 值 时 ， 参 与 计算 的 所 
有 测量 值 的 数量 。 还 有 一 个 按钮 用 户 可 用 来 同时 选择 列 中 的 子 集 加 以 显示 (代表 着 基准 算法 
的 列 总 是 包含 在 其 中 )， 另 外 一 个 按钮 用 来 选择 输出 格式 : 文本 文档 (默认 )， 用 于 LaTeX 排 
版 系统 的 输出 格式 以 及 CVS 格 式 。 


time 
‘Number_of_training_instances 
Number_of_testing_instances 





b) 列 选项 

(1) iris | 

trees.J48 '-C 0.25 -M 2’ (100) 94.73 | 
rules.OneR '-B 6' (100) 93.53 | 
rules.ZeroR '' (100) 33.33 | 
(YA /*) | 

c) 互 换行 与 列 选 项 后 的 结果 
Dataset (1) trees.J4 | (2) rules (3) rules 
1 (10) 96 | $4 33.33 * 
2 (10) 94 I 94 33.33 * 
3 (10) 94 | $4 33.33 + 
4 (10) 95.33 | 92.67 33.33 +*+ 
5 q10) $5.33 | 94.67 33.33 + 
6 (10) 95.33 | 94 33.33 + 
7 (10) 94 | $2.67 33.33 * 
2 (10) 94 I 92 33.33 * 
9 (10) 94 | $3.33 33.33 + 
10 (10) 95.33 | 94 33.33 * 
人 wy /*) | (0/10/70) (0/0/10) 
d) 将 Dataset 替 换 成 Run 作 为 行 


图 12-4 图 12-2 中 的 行 和 列 
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12.5 将 运行 负荷 分 布 到 多 个 机 器 上 


实验 者 的 -- 个 显著 优点 是 它 能 将 一 个 实验 分 割 并 分 布 到 几 个 处 理 器 上 。 这 只 适合 高 级 用 
户 ， 且 只 能 在 Setup 面 板 的 高 级 版 本 中 操作 。 由 于 从 简单 版 本 切换 到 高 级 版 本 了 时， 实验 的 结构 
可 保持 不 变 ， 一 些 用 户 通过 在 简单 版 本 设置 实验 ， 然 后 切换 到 高 级 版 本 对 其 进行 分 布 的 方式 
来 避免 使 用 高 级 版 本 的 面板 。 无 论 如 何 ， 对 一 个 实验 进行 分 布 是 高 层次 的 操作 ， 通 常 是 较 难 
的 。 例 如 ， 文 件 和 文件 夹 权限 的 设 定 就 比较 复杂 。 

在 图 12-1a 中 所 示 面 板 上 当选 择 JDBC database 作 为 结果 目的 地 ， 将 结果 都 发 送 到 中 央 数 据 
库 时 ， 分 布 … 个 实验 可 取得 最 好 效果 。 它 使 用 的 是 远程 手段 调用 (RMI) 机 制 ， 且 可 与 任何 
带 有 JDBC (Java database connectivity) 驱动 器 的 数据 库 一 起 工作 。 分 布 实验 已 经 在 几 个 免费 
的 数据 库 中 进行 过 测试 。 还 有 一 种 可 行 的 选择 是 ， 用 户 可 令 每 台 机 器 将 各 自 的 结果 存储 成 不 
同 的 ARFF 文 件 ， 随 后 再 将 这 些 文件 合并 起 来 。 

要 分 布 一 个 实验 ， 每 台 终 端 机 必须 (1) 安装 Java，(2) 可 读 取 用 户 正 在 使 用 的 数据 集 ， 
(3) 正在 运行 weka.experiment.RemoteEngine 实 验 服 务 器 。 如 果 所 得 结果 发 送 到 一 个 中 央 数 据 
库 ， 每 台 机 器 都 必须 安装 相应 的 JDBC 数 据 库 驱 动 器 。 运 行 一 个 分 布 式 实验 较 困难 的 部 分 就 是 
将 以 上 这 些 正 确 完成 。 

要 在 一 台 计 算 机 上 开始 运行 一 个 远程 引擎 实验 服务 器 ， 首 先 将 remoreExperimentServerjar 
从 Weka 分 布 包 中 复制 到 计算 机 上 的 一 个 目录 中 。 用 以 下 命令 将 其 拆 包 

jar xvf remoteExperimentServer. jar 

它 扩展 成 两 个 文件 : remoteEngine. jar, -个 含有 实验 服务 器 的 可 执行 /ar 文件 ， 以 及 
remote.policy, 

Remote.policy 文 件 给 远程 引擎 授予 权限 令 其 进行 一 些 特定 操作 ， 如 连接 到 一 些 端口 ， 或 
存 取 “个 文件 夹 等 。 该 文件 需 经 过 编辑 以 便 在 一 些 需要 授予 的 权限 中 指明 正确 的 路 径 ; 当 用 
户 查 看 该 文件 时 就 会 不 言 自明 。 在 默认 条 件 下 ， 它 规定 所 需 代 码 可 从 Web 的 任意 地 址 由 HTTP 
80 端 口 下 载 ， 但 远程 引擎 也 可 从 文件 URL 载 入 代码 。 要 做 到 这 一 点 ， 将 该 文件 中 对 应 文件 
URL 所 举 的 示例 解除 注释 状态 并 相应 地 替换 路 径 名 。 远 程 引 擎 也 需要 能 够 存 取 实 验 中 所 用 的 
数据 集 ( 见 remore.Policy 中 的 第 一 个 条 目 )。 读 取 数据 集 的 路 径 是 在 实验 者 (了 即 客户 端 ) 中 指 
定 的 ， 且 同 样 的 路 径 必 须 也 适用 于 远程 引擎 的 运行 条 件 。 要 达到 这 个 条 件 ， 也 许 有 必要 在 实 
验 者 的 Setup 面 板 上 通过 选中 Use relative paths 复 选 框 的 方式 指定 相对 路 径 名 。 

要 启动 远程 引擎 服务 器 ， 在 含有 remorteEngine.jar 的 目录 下 键入 

java -classpath remoteEngine.jar:<path to any j dbc_drivers> 

-Djava.security.policy=remote.policy weka.experiment .RemoteEngine 

如 果 … 切 正常 进行 ,用户 会 看 到 以 下 信息 (RERE ): 


Host name : ml.cs.waikato.ac.nz 

RemoteEngine exception: Connection refused tohost: 

ml.cs.waikato.ac.nz; nested exception is: 
java.net .CannectException: Connection refused 

Attempting to start rmi registry... 

RemoteEngine bound in RMI registry 


乍 看 似乎 出 了 和 问题， 实际 却 是 好 消息 ! 连接 被 拒绝 是 因为 该 服务 器 上 RMI 注 册 未 运行 ， 
因此 远程 引 欧 启动 了 一 个 RMI 注 册 。 在 所 有 终端 机 上 重复 该 过 程 。 在 同一 台 终 端 机 上 运行 一 
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个 以 上 的 远程 引擎 是 没有 意义 的 。 

键入 以 下 命令 局 动 实验 者 : 

java -Djava.rmi.server.codebase=<URL_for_weka_code> 

weka .gui .experiment . Experimenter 

其 中 的 URL 指 明 远 程 引擎 可 到 哪里 找到 待 执行 的 代码 。 如 果 该 URL 给 出 一 个 目录 ( 即 售 
有 Weka 目 录 的 目录 )， 而 不 是 一 个 jar 文 件 ， 它 一 定 是 以 路 径 分 隔 符 (例如 ，/) 结尾 。 

图 12-3 中 实验 者 高 级 Setup 面 板 的 左 侧 中 部 有 一 个 小 窗 格 ， 它 决定 了 一 个 实验 是 否 会 被 分 
布 。 该 窗 格 通 常 是 不 活动 的 。 要 分 布 该 实验 ， 单 击 窗 格 中 的 复 选 框 (Hosis 按 钮 左 侧 一 一 译 者 
TE) 以 激活 Hosts 按 钮 : (点 击 Hosts 按 钮 -一 译 者 注 ) 一 个 窗口 会 弹出 来 询问 该 实验 将 要 分 布 
的 终端 机 器 。 终 端 机 器 的 名 字 必 须 完整 地 给 出 (án, m.cs.waikato.ac.nz). 

进入 终端 机 后 ， 按 通常 方式 配置 实验 的 其 余 选 项 ( 像 前 面 提 到 的 那样 ， 最 好 配置 完 后 再 
切换 到 高 级 设置 方案 中 )。 使 用 Run 面板 开始 进行 实验 时 ， 不 同 终端 机 器 上 的 子 实验 的 进程 也 
会 显示 出 来 ， 同 时 显示 的 还 有 任何 可 能 的 出 错 信息 。 

分 布 一 个 实验 涉及 到 将 其 分 割 成 子 实 验 ， 并 通过 远程 方式 调用 发 送 到 终端 机 上 执行 。 默 
认 条 件 下 ， 实 验 是 按照 数据 集 划 分 的 ， 即 终端 机 的 数量 不 可 能 多 于 数据 集 的 数量 。 因 此 每 个 
子 实验 都 是 独立 的 ， 它 将 所 有 的 学 习 方 案 应 用 于 一 个 单独 的 数据 集 。 一 个 仅 含 有 几 个 少量 数 
据 集 的 实验 也 可 以 按照 运行 次 数 划分 。 比 方 说 ， 一 个 10 次 10 折 交 义 验证 可 被 分 割 成 10 个 子 实 
验 ， 每 次 运行 一 个 子 实验 。 











第 13 章 命令 行 界面 


隐藏 在 Weka 的 互动 式 界面 探索 者 、 知 识 流 和 实验 者 后 面 的 是 Weka 的 基本 功能 。 这 些 功 能 
可 以 原始 形式 通过 命令 行 界面 运行 。 从 图 10-3a 底 部 的 界面 选项 中 选择 Simple CL7T， 得 到 一 个 
普通 文件 面板 ， 用 户 可 在 面板 底部 的 栏 中 键 人 指令 。 另 外 ， 用 户 还 可 在 操作 系统 的 命令 行 界 
面 上 直接 运行 weka.jar 文 件 中 的 类 ， 要 想 以 这 种 方式 运行 ， 用 户 必须 按照 Weka 的 README 文 
件 中 说 明 的 那样 ， 首 先 设 定 CLASSPATH 环 境 变 量 。 


13.1 开始 着 手 

企 10.1 节 的 开始 ， 我 们 利用 探索 者 在 天 气 数据 上 运行 14.8 学 习 器 。 要 在 命令 行 界面 做 同样 
的 事情 ， 在 文件 面板 底部 的 栏 中 键入 : 

java weka.classifiers.trees.J48 -t data/weather.arff 
这 道光 语调 用 java 虚拟 机 (在 Simple CLI, Java AA) 且 指 示 它 运行 J4.8。Weka 是 以 包 
的 形式 组 织 起 来 的 ， 对 应 着 一 个 目录 层级 结构 。 所 运行 的 程序 叫做 J4.8， 它 是 在 trees 包 中 ， 是 
Classifiers 的 子 包 ， 而 Classifiers 则 是 整个 weka 包 的 一 部 分 。 下 一 节 会 介绍 更 多 有 关 包 结构 的 
详细 情况 。 ~ i 选项 表明 随后 的 参数 是 训练 文件 的 名 字 ， 假 设 天 气 数 据 就 存在 用 户 启动 Weka 的 
目录 下 的 dara 子 目 孙 中 。 由 运行 结果 合成 的 文本 显示 在 图 10-5 中 。 在 Simple CLI 界 面 中 ， 该 结 
果 会 出 现在 用 户 键入 命令 的 栏 上 方 的 面板 中 。 
13.2 Weka 的 结构 

我 们 已 经 解释 过 如 何在 探索 者 中 启用 过 滤器 和 学 习 方 案 ， 以 及 在 知识 流 界面 中 将 它们 连 
接 到 -起 。 要 想 再 进 - 步 深 入 了 解 ， 有 必要 学 习 Weka 是 如 何 构 成 的 。 有 关 Weka 的 详细 且 及 时 
得 到 更 新 的 信息 可 在 分 布 包 的 在 线 文档 中 找到 。 该 文档 要 比 探索 者 及 知识 流 的 对 象 编辑 器 中 
的 More 按 钮 所 给 出 的 对 学 习 和 过 滤 方 案 的 描述 技术 程度 要 高 。 该 文件 是 通过 Sun 的 Javadoc 应 
用 程序 有 源 代码 中 的 注释 文本 直接 产生 的 。 要 理解 它 的 结构 ， 用 户 需 要 知道 Java 程 序 是 如 何 
构成 的 。 
13.2.1 类 ， 实 例 和 包 

每 个 Java 程 序 都 是 作为 … 个 类 实现 的 。 在 面向 对 象 的 编程 中 ， 一 个 类 就 是 变量 加 上 一 些 
在 这 些 变 量 上 进行 操作 的 方法 的 一 个 集合 。 合 在 起， 它们 定义 了 属于 该 类 的 一 个 对 象 的 行 
为 。 个 对 象 简单 说 就 是 一 个 为 其 所 有 的 变量 赋值 的 类 的 实例 体 。 在 Java 中 ， 一 个 对 象 也 可 
称 为 类 的 … 个 实例 。 不 幸 的 是 ， 这 与 本 书 所 用 的 术语 相 冲 突 。 本 书 中 的 class 和 instance 出 现在 
机 器 学 习 的 不 同 的 上 下 文中 具有 截然 不 同 的 含义 。 从 现在 开始 ， 用 户 将 不 得 不 根据 它们 的 上 
下 文 来 推测 这 些 术 语 所 真正 代表 的 意思 。 这 并 不 很 难 ， 且 有 了 时 我 们 会 用 object 这 个 词 来 代 赫 
Java 中 的 instance 以 避免 歧义 。 

在 Weka 中 ， 一 个 具体 学 习 算 法 的 实现 是 封装 在 -个 类 中 的 。 例 如 ， 上 面 描述 过 的 J48 类 会 
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创建 一 个 C4.5 决 策 树 。 每 次 Java 庶 拟 机 执行 V486， 它 会 为 创建 及 存储 一 个 决策 树 分 类 器 分 配 存 
储 器 ， 从 而 生成 一 个 该 类 的 实例 。 所 用 的 算法 ， 它 所 创建 的 分 类 器 ， 以 及 用 于 输出 该 分 类 器 
的 程序 都 是 类 .J48 的 实例 体 的 组 成 部 分 。 

较 大 的 程序 通常 被 分 割 为 一 个 以 上 的 类 。 例如， 类 J48 就 不 含 任何 用 于 构建 决策 树 的 代码 。 
它 只 含有 承担 大 部 分 工作 的 其 他 类 的 实例 的 参考 。 当 类 的 数量 很 多 时 ， 就 像 在 Weka 中 一 样 ， 
会 难于 理解 及 查找 。Java 的 包 结 构 可 令 许 多 类 组 织 在 一 起 。 一 个 包 就 是 一 个 含有 相关 联 类 的 
合集 的 一 个 目录 ， 例 如， 上 面 提 到 过 的 包 zrees 就 含有 实现 了 决策 树 的 类 。 所 有 的 包 根 据 一 个 
层级 结构 组 织 在 -起 ， 而 该 层级 结构 与 目录 的 层级 结构 相对 应 ， 即 ，trees 是 classifiers 包 的 -- 
个 子 包 ，、 和 而 classifiers 包 本 身 又 是 整个 Weka 包 的 一 个 子 包 。 

当 使 用 Web 浏 览 器 查看 由 Javadoc 产 生 的 在 线 文 档 时 ， 用 户 首先 看 到 的 是 按 英文 字母 顺序 
排列 的 Weka 中 所 有 的 包 的 一 个 列表 (图 13-1a)。 我 们 在 这 里 依照 重要 性 先后 次 序 从 中 挑选 几 
个 加 以 介绍 。 


13.2.2 weka.core € 


Core 包 是 Weka 系 统 的 核心 ， 并 且 它 里 面 的 类 可 被 几乎 其 他 所 有 的 类 读 取 。 用 户 可 单 击 
weka.core 超 链接 ， 得 到 图 13-1b 所 示 的 弹出 Web 页 ， 看 看 它们 到 底 是 什么 。 

图 13-1b 中 的 Web 页 可 划分 成 两 部 分 : 接口 概要 和 类 概要 。 前 者 列 出 了 所 提供 的 接口 ， 后 
者 则 是 包 中 所 含有 的 全 部 类 的 一 个 列表 。 一 个 接口 就 像 一 个 类 ， 唯 一 的 区 别 是 接 日 不 做 任何 
事情 ， 只 是 不 含 实际 实现 的 方法 列表 。 其 他 类 可 声明 它们 “实现 了 ”一 个 具体 的 接口 ， 然 后 
为 它 的 方法 提供 代码 。 例 如 ，OptionHandler 接 口 就 定义 了 那些 可 被 所 有 能 处 理 命令 行 选项 的 
类 实现 的 方法 ， 这 些 类 中 包括 所 有 的 分 类 器 。 

Core 包 中 关键 的 类 有 Attribute，Instance 和 Instances。 类 Attribute 的 -个 对 象 代 表 一 个 属 
性 。 它 包含 了 属性 名 ， 它 的 类 型 ， 以 及 如 果 是 名 词性 或 字符 串 属 性 的 话 ， 它 的 可 能 的 值 。 类 
Jnstance 的 一 个 对 象 含有 一 个 具体 实例 所 含 的 属性 值 ， 而 类 lnstances 的 一 个 对 象 则 含有 一 个 按 
顺序 排列 的 实例 集 ， 换 句 话说， 就 是 一 个 数据 集 。 用 户 如 果 想 了 解 更 多 ， 可 点 击 它们 的 超 链 
接 ， 第 14 章 谈 到 如 何 从 其 他 Java 代 码 中 调用 机 器 学 习 方 案 时 会 再 次 对 这 些 类 进行 探讨 。 其 实 ， 
用 户 不 知道 这 些 细节 也 一 样 可 以 通过 命令 行使 用 Weka。 

单 击 任何 在 线 文 本 页 左上 和 角 的 Overview 超 链接 会 带领 用 户 回 到 Weka 所 有 包 的 列表 (图 
13-1a ) 。 


13.2.3 weka.classifiers 包 


Ciassifiers 包 中 含有 本 书 中 讨论 过 的 用 于 分 类 及 数值 预测 的 大 部 分 算法 的 实现 。( 数 值 预 
和 测 包 括 在 classifiers 中 ， 作 为 一 个 连续 的 类 的 预测 诠释 。) 在 这 个 包 中 最 重要 的 类 是 Classifier， 
它 定 义 了 任何 用 于 分 类 或 数值 预测 的 学 习 方 案 的 通用 结构 。Classifier 含 有 三 个 方法 : 
buildClassifier(), ciassifyInstance{) 和 distributionForInstance()。 在 面向 对 象 的 编程 的 专 有 名 
词 中 ， 学 习 算法 用 class 六 er 的 子 类 人 代表， 因此， 自动 继承 这 三 个 方法 。 每 种 方案 都 会 根据 构 
建 分 类 器 以 及 它 对 实例 进行 分 类 的 具体 方式 对 这 三 个 方法 进行 重新 定义 。 为 在 其 他 Java 代 码 
中 构建 及 使 用 分 类 器 提供 了 一 个 统一 的 接口 。 因 此 举例 来 说 ， 同样 的 评估 模块 可 用 来 评估 
Weka 中 任何 分 类 器 的 性 能 。 
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a) 首页 b) weka.core 包 
图 13-1 使 用 Javadoc 


如 果 想 看 一 个 例子 ， 单 击 weka.classifiers.trees， 然后 再 单 击 DecisionStump 。 
DecisionStump 是 一 个 用 于 构建 简单 单 级 二 又 决策 树 (用 一 个 额外 的 分 支 代 表 残 缺 值 ) 的 类 。 
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它 的 文本 页 显示 在 图 13-2 中 ， 在 靠近 文本 顶部 的 地 方 给 出 了 该 类 的 完整 有 效 的 名 字 
weka.classifiers.trees.DecisionStump。 任 何 时 候 用 户 想 从 命令 行 构 建 一 个 决策 树桩 ， 都 必须 使 
用 这 个 长 长 的 名 字 。 类 的 名 字 会 出 现在 一 个 小 的 树 结构 中 ， 与 其 同时 显示 的 还 有 这 个 类 的 层 
级 结构 中 其 他 相关 联 的 部 分 。 从 该 结构 中 用 户 可 观察 到 ，DecisionStump 是 
weka.classifiers.Classifier 的 一 个 子 类 ， 而 weka.classifiers.Classifier 本 身 是 java.lang.Object 的 一 
个 子 类 。 在 Java 中 ， 类 Object 是 最 通用 的 类 ， 所 有 的 类 都 自动 成 为 它 的 子 类 。 


NO FRAMES 
one FIELD | CONSTR | METHOD 















java.lang.Object 
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| 
+--weka.classifiers.trees.DecisionStump 







a decision stump. Usually used in conjunction with a 
boosting algorithm. usage: 


java weka.classifiers.trees.LogitBoost -1 100 -W 
weka.classifiers.trees.DecisionStump -t training data 
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图 13-2 DecisionStump: weka.classifiers.trees 包 中 的 一 个 类 
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图 13-2 ( 续 ) 


在 介绍 了 有 关 类 的 笼统 信息 【简洁 的 注释 文本 )、 版 本 和 作者 之 后 ， 图 13-2 给 出 了 该 类 的 
构造 函数 及 方法 的 一 个 索引 。 一 个 constructor (构造 函数 ) 就 是 一 种 特殊 的 方法 ， 无 论 何 时 ， 
当 一 个 类 的 对 象 被 生成 ， 通 常 也 就 是 初始 化 那些 联合 定义 该 对 象 状 态 的 变量 时 ， 该 方法 总 会 
被 调用 。 方 法 索引 列 出 了 每 个 方法 的 名 字 、 它 所 接受 的 参数 类 型 ， 以 及 对 其 功能 的 一 个 简短 
描述 。 在 那些 索引 的 下 面 ， NOT AAR EE. 我 们 以 后 会 
对 这 些 细节 再 加 以 讨论 。 

用 户 能 注意 到 ，DecisionStump 由 Classifier 重 写 TdistributionF orInstance()， 即 Classifier 类 
中 classifyInstance () 的 默认 实现 ， 然 后 用 该 方法 产生 它 自己 的 分 类 结果 。 除 此 以 外 ， 它 还 有 
toString()，toSource() 和 main() 儿 个 方法 。 第 一 个 方法 返回 一 个 用 来 显示 在 屏幕 上 的 对 分 类 器 的 
文本 描述 。 第 二 个 则 用 于 取得 所 学 习 到 的 分 类 器 的 源 代码 表述 。 当 用 户 想 从 命令 行 得 到 一 个 决 
策 树桩 时 ， 也 就 是 说 ， 每 当 用 户 键 入 以 如 下 指令 为 开头 的 命令 时 ， 第 三 个 方法 将 会 被 调用 

java weka.classifiers.trees .DecisionStump 

如 果 一 个 类 中 含有 一 个 main() 方 法 ， 说 明 该 类 可 在 命令 行 执行 ， 且 所 有 学 习 方 法 和 过 滤器 
算法 都 要 实现 它 。 


13.2.4 其 他 包 


图 13-1a 中 列 出 的 其 他 几 个 包 同 样 值得 研讨 : weka.associations, weka.clusterers, 
weka.estimators , weka. filters Fil weka.attributeSelection。 包 weka.associations 包 含 关联 规则 学 
习 器 。 将 这 些 关 联 规则 学 习 器 列 为 一 个 单独 的 包 是 因为 关联 规则 与 分 类 器 有 着 根本 的 区 别 。 
Weka.clusterers 包 里 面 是 用 于 无 指导 学 习 的 方法 。 在 weka.estimators 包 中 包含 一 个 通用 
Estimator 类 的 子 类 ，Estimator 类 可 用 于 计算 不 同类 型 的 概率 分 布 。 朴 素 贝 叶 斯 算法 (以 及 其 
他 算法 ) 会 用 到 这 些 子 类 。 

在 weka.filters 包 中 ， 类 Filter 定 义 了 含有 过 滤器 算法 的 类 的 一 般 结构 ， 这 些 算法 都 作为 
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Filter 的 子 类 实现 。 与 分 类 器 H.R a oT ERA., RIRS RS aie. 
Weka.attributeSelection 包 中 含有 几 个 用 于 属性 选择 的 类 。Weka.filters.supervised.attribute 包 中 
的 AttribureSelectionFilter 会 用 到 这 几 个 类 ， 但 它们 也 可 被 单独 调用 。 


13.2.5 Javadoc 索 引 


正如 上 面 提 到 的 ， 所 有 的 类 都 自动 成 为 Object 的 子 类 。 要 查看 与 Weka 中 类 的 层级 结构 相 
对 应 的 树 ， 从 任何 在 线 文本 页 的 顶部 选择 Overview 链 接 。 单 击 tree 则 有 一 个 树 的 全 貌 呈 现 出 来 ， 
该 树 显示 的 是 某 个 类 的 子 类 或 超 类 ， 例如， 那些 继承 了 Classifier 的 类 等 。 

在 线 文 档 包 含 了 Weka 中 所 有 公开 使 用 的 变量 ( 称 作 字段 ) 及 方法 的 一 个 索引 。 换 句 话说 ， 
即 所 有 可 从 用 户 自己 的 Java 代 码 中 读 取 的 字段 和 方法 。 要 查看 这 个 索引 ， 单 击 Overview， 然 
F Æ index, 

假如 设 用 户 想 知道 哪些 Weka 的 分 类 器 和 过 滤器 可 进行 递增 操作 ， 在 索引 中 搜索 
incremental 这 个 字 ， 会 很 快 将 用 户 引 导 至 关键 字 UpdateableClassifier。 实 际 上 、 这 是 一 个 Java 
接口 : 接口 在 展示 出 全 貌 的 树 中 被 列 于 类 的 后 面 。 用 户 想 要 找 的 是 实现 了 该 接口 的 所 有 类 。 
在 任何 出 现 该 接口 的 字样 上 单 击 ， 会 得 到 一 个 描述 该 接口 并 列 出 了 实现 该 接口 的 所 有 分 类 器 
的 页 面 。 如 果 用 户 不 知道 关键 字 StreamableFilter, 要 找到 想 要 的 过 滤器 则 有 点 儿 难 。 
StreamableFilter 是 … 个 用 于 令 数据 呈 “ 流 ” 式 通 过 过 滤器 的 接口 的 名 字 ， 访 页面 同样 列 出 了 
实现 该 接口 的 过 滤器 。 如 果 已 经 知道 了 任何 可 进行 递增 操作 的 过 滤器 的 例子 ， 用 户 会 在 不 经 
意 间 发 现 这 个 关键 词 。 

13.3 命令 行 选项 

在 上 面 所 举 的 例子 中 ，-t 选 项 用 于 在 命令 行 中 将 训练 文件 的 名 字 与 学 习 算 法 沟通 起 来 。 
许多 其 他 选项 可 用 于 任何 学 习 方案 ， 也 有 一 些 与 具体 方案 关联 的 选项 只 能 用 于 某 些 方案 。 如 
AAP aah 一个 不 加 任何 命令 行 选项 的 方案 ， 它 会 显示 所 有 可 用 的 选项 : 首先 是 通用 性 选项 ， 

java weka.classifiers.trees.J48 
接着 是 与 该 方案 相关 联 的 选项 。 在 命令 行 界面 中 ， 键 入 : 

用 户 会 看 到 “ 列 适 用 于 所 有 学 习 方案 的 通用 选项 ， 如 表 13-1 所 示 ， 以 及 表 13-2 中 的 只 适用 于 
-48 的 选项 。 我 们 会 对 通用 选项 加 以 说 明 ， 然 后 简单 回顾 与 具体 方案 相关 联 的 选项 。 


13.3.1 通用 选项 


表 13-1 中 的 选项 确定 了 哪些 数据 用 于 训练 ， 哪 些 用 于 测试 ， 分 类 器 是 如 何 评估 的 ， 以 及 显 
未 哪 种 统计 数据 。 例 如 ， 当 用 一 个 独立 测试 集 评 估 学 习 方 案 时 ，-7 选 项 用 来 提供 测试 文件 的 
名 字 。 默 认 条 件 下 ， 在 一 个 ARFF 文 件 中 最 后 一 个 属性 是 类 ， 但 用 户 可 用 -< 后面 接 所 选 定 的 属 
性 位 置 ， 将 其 他 属性 声明 为 类 ，1 表 示 第 一 个 属性 ，2 表 示 第 二 个 ， 等 等 。 当 进行 交叉 验证 时 
(如 果 不 提供 测试 文件 ， 交 叉 验证 是 默认 选项 )， 数 据 要 首先 进行 随机 混合 。 如 果 要 重复 多 次 交 
又 验证 ， 且 每 次 以 不 同 的 方式 随机 混合 数据 ， 用 -s 设 定 随机 数 种 子 (默认 是 1)。 在 测试 大 型 
数据 集 时 ， 用 户 可 用 -x 选 项 把 用 于 交叉 验证 的 折 的 数量 从 默认 的 10 降 低 至 想 要 的 数量 。 

在 探索 者 中 ， 成 本 敏感 评估 可 以 像 第 10.1 节 中 描述 的 那样 被 调用 。 要 想 在 命令 行 中 取得 同 
样 效果 ， 用 -m 选 项 来 提供 一 个 含有 成 本 矩阵 的 文件 的 名 字 。 以 下 是 一 个 天 气 数据 的 成 本 红 阵 : 
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2 2 $% Number of rows and columns in the matrix 
0 10 % If true class yes and prediction no, penalty is 10 
1 0 % If true class no and prediction yes, penalty is 1 


表 13-1 Weka 中 用 于 学 习 方 案 的 通用 选项 


选 项 功 能 
-t < 训练 文件 > 指定 训练 文件 
-T < 测试 文件 > 指定 铀 斌 文件。 如 果 该 选项 为 室 ， 就 在 训练 数据 上 进行 交叉 验证 
-c < 类 索引 > 指定 类 属性 的 索引 
-s < 随机 数 种 子 > 指定 用 于 交叉 验证 的 随机 数 种 子 
~x < 拆 的 数 匡 > 指定 用 于 交叉 验证 的 折 的 数量 
-am< 成 本 证 阵 文件 > 指定 含有 成 本 知 阵 的 文件 
-G < 输出 文件 > 指定 模型 的 输出 文件 
-1 < 输入 文件 > 指定 模型 的 输入 文件 
-0 只 输出 统计 数据 ， 不 输出 分 类 器 
-i 对 含有 两 个 类 的 问题 输出 信息 检索 统计 数据 
-x 输出 信息 理论 统计 数据 
-p < PEN ful 输出 测试 实例 的 预测 
-v 不 对 训练 数据 输出 统计 数据 
-r 输出 案 积 边 差 分 布 
-z < 类 名 宁 > 输出 分 类 器 的 源 表述 
-9 输出 分 类 器 的 图 形 表 述 





第 行 给 出 了 行 和 列 的 数量 ， 也 就 是 类 值 的 数量 。 接 着 是 损失 (penalty) 和 矩阵。 由 % 引 
导 的 注释 可 附加 在 任何 - 行 的 末尾 。 

将 模型 保存 起 来 以 及 重新 载 人 是 可 以 做 到 的 。 如 果 用 户 用 -a 提 供 一 个 输出 文件 的 名 字 ， 
Weka 就 会 把 由 训练 数据 产生 的 分 类 器 保存 下 来 。 要 在 一 个 新 的 批量 测试 数据 上 评估 同样 的 分 
类 器 ， 用 户 可 用 -1 将 该 分 类 器 重新 载 入 ， 而 无 需 重新 构建 。 如 果 该 分 类 器 可 递增 更 新 ， 用 户 
还 可 提供 训练 文件 以 及 输入 文件 ，Weka 会 载 入 该 分 类 器 并 用 所 给 的 训练 实例 对 其 进行 更 新 。 

如 果 用 户 只 想 检 验 一 个 学 习 方 案 的 性 能 ， 用 -o 选 项 可 禁止 模型 的 输出 。 用 -i 可 查看 精确 
度 ， 反 馈 度 及 F 测 量 (第 5.7 告 ) 的 性 能 指标 ， 用 -k 可 计算 由 一 个 学 习 方 案 导 出 的 概率 的 信息 
理论 指标 (445.677). 

通常 weka 用 户 想 要 知道 学 习 方案 将 每 个 测试 实例 预测 为 哪些 类 值 。-p 选 项 会 显示 出 每 个 
测试 实例 的 编号 、 类 、 该 方案 所 作 预 测 的 置信 和 度 ， 以 及 所 预测 的 类 值 。 它 还 为 每 个 实例 输出 
属性 值 ， 属 性 值 后 面 必须 跟着 它 的 值 区 间 的 详细 说 明 (例如 ，1 -2)， 如 果 用 户 不 想 要 任何 属 
性 值 ， 就 用 0。 用 户 还 可 以 输出 训练 数据 的 累积 边 差分 布 ， 该 分 布 显示 的 是 边 差 指标 的 分 布 
(7.545) 是 如 何 随 着 提升 迭代 的 轮 次 变化 的 。 最 后 ， 用 户 可 输出 分 类 器 的 源 表述 ， 并 且 如 果 
分 类 器 可 产生 一 个 图 形 表述 的 话 ， 也 同样 可 以 显示 出 来 。 


13.3.2 与 具体 方案 相关 的 选项 

表 13-2 列 出 了 只 适用 于 J4.8 的 选项 。 用 户 可 强迫 算法 使 用 未 修剪 的 树 ， 而 不 使 用 修剪 过 的 
树 。 尽 管子 树 上 升 能 够 增加 效率 ， 用 户 能 够 对 其 加 以 阻止 。 用 户 可 设 定 用 于 修剪 的 置信 度 阔 ， 
以 及 任何 叶 上 的 可 允许 的 实例 数量 的 最 小 值 ， 两 个 参数 在 第 6.1 节 中 都 讨论 过 。 除 了 可 实行 
C4.5 的 标准 修剪 程序 外 ， 也 可 进行 减少 误差 修剪 (第 6.2 秆 )。-N 选 项 掌管 着 旁 置 集 的 大 小 ， 








PIÈ PSR 307 





数据 集 被 平均 划分 成 与 该 选项 的 值 相等 数量 的 部 分 ， 并 将 最 末尾 的 部 分 旁 置 〈 该 选项 默认 值 
是 3)。 用 户 可 用 拉 普 拉 斯 技巧 来 平滑 概率 估计 ， 在 选择 修剪 集 时 ， 为 数据 的 随机 混合 设 定 种 
子 值 ， 以 及 存储 实例 的 信息 以 备 将 来 用 作 可 视 化 。 最 后 ， 用 -B 可 为 名 词性 属性 构建 一 个 二 又 
树 ， 而 不 是 通常 的 多 分 支 树 。 

表 13-2 ”与 J4.8 决 策 树 学 习 器 相关 的 选项 








选 项 功 能 
-U 使 用 未 修剪 的 树 
-C< W R aE > Pate IFE E E frs E 
-M< 实 例 数 最 > 指定 单个 时 上 实例 数量 的 最 小 值 
-R 使 用 减少 误差 修剪 
-N< 折 的 数 最 > 指定 用 于 减少 误差 修剪 的 折 的 数量 。 共 中 … 个 折 用 作 修剪 集 
-3 HEH OR 
-S 不 进行 子 树 EIE 
-L 保留 实例 信息 
A HEERE EHA K FERRERI 458 


-Q 用 于 混合 数据 的 种 子 值 459 
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当 从 图 形 用 户 界 面 或 命令 行 调 用 学 习 方案 时 ， 用 户 不 需要 了 解 任何 有 关 Java 编 程 的 知识 。 
在 本 节 中 .我 们 会 讲解 如 何 从 用 户 自己 的 代码 中 使 用 这 些 算法 。 使 用 面向 对 象 编程 语言 的 优 
势 在 以 下 的 讲解 中 会 变 得 更 清楚 。 从 现在 开始 ， 我 们 假定 用 户 至 少 知 道 一 些 有 关 Java 的 基本 
常识 。 在 绝 大 多 数 数据 挖 括 的 实用 程序 中 ， 学 习 组 件 是 一 个 更 大 型 软件 环境 中 的 一 个 完整 部 
分 。 如 果 该 软件 环境 是 用 Java 写 成 的 ， 用 户 无 需 自己 编写 任何 机 器 学 习 的 代码 即 可 用 Weka 解 
决 有 关 的 学 习 问 题 。 


14.1 一 个 简单 的 数据 挖 所 程序 


我 们 会 展示 一 个 简单 的 用 于 学 习 模型 的 数据 挖掘 程 序 , 该 模型 将 文本 文件 按 两 个 类 别 划分 : 
hit 和 miss。 该 程序 可 应 用 于 各 种 各 样 的 文本 : 我 们 将 这 些 文本 称 为 消息 。 它 的 实现 方法 是 用 第 
10.3 节 中 提 到 过 的 StringToWordVector 过 滤器 以 在 第 7.3 节 中 描述 过 的 方式 ， 将 消息 转换 成 属性 
向 量 。 我 们 假设 每 次 处 理 一 个 新 文件 时 该 程序 都 会 被 调用 。 如 果 用 户 为 该 文件 提供 一 个 类 标签 ， 
系统 就 用 它 作 训练 ; 否则 ， 就 对 其 进行 分 类 。 决 策 树 分 类 器 48 会 用 来 做 这 项 工作 。 


14.2 讲解 代码 


图 14-1 给 出 了 在 一个 名 字 叫 MessageClassifier 的 类 中 实现 的 应 用 程序 的 源 代 码 。main() 方 
法 所 接受 的 命令 行 可 变 参 数 是 : 一 个 文本 文件 的 名 字 (由 选项 -m 给 出 )， 持 有 类 
MessageClassifier 的 一 个 对 象 的 文件 的 名 字 ( -t )， 和 文件 中 消息 的 分 类 (-c)， 最 后 一 个 选 
项 可 缺 省 。 如 果 用 户 提供 一 个 (消息 的 ) 分 类 ， 消息 会 被 转换 成 用 于 训练 的 一 个 例子 ; 如 果 
不 提供 ， 则 MessageCiassirer 对 象 会 被 用 于 将 其 分 类 成 hit 或 miss。 


14.2.1 main () 


main() 方 法 将 消息 读 和 人 一 个 Java StringBuffer， 并 查看 是 否 用 户 为 其 提供 了 -一 个 分 类 。 然 后 
它 根据 -t 选 项 给 出 的 文件 读 取 一 个 MessageClassifier 对 象 。 如 果 该 文件 不 存在 ， 它 会 生成 一 个 
新 的 MessageClassifier 类 的 对 象 。 不 论 该 文件 是 读 人 的 还 是 新 生成 的 ， 它 都 命名 为 messageCl。 
如 果 已 经 提供 了 分 类 ， 在 经 过 查验 确信 它 不 含 非法 命令 行 选项 后 ， 该 程序 会 调用 方法 
updateDatal) 来 更 新 存储 在 messageCl 文 件 中 的 训练 数据 ; 否则 就 调用 classifyMessage(l) 对 其 进 
行 分 类 。 最 后 ， 因 为 messageCl 对 象 也 许 已 经 发 生 了 变化 ， 它 会 被 重新 保存 到 文件 中 。 在 以 下 
的 描述 中 ， 我 们 会 首先 讨论 一 个 新 的 MessageClassifier 对 象 是 如 何 通 过 构造 函数 
MessageClassifier() 生 成 的 ， 然 后 解释 两 个 方法 updateData{) 和 classiyMessage{) 是 如 何 工 作 的 。 


14.2.2 MessageClassifier() 


每 当 一 个 新 的 MessageClassifier 被 生成 ， 用 于 持 有 过 滤器 和 分 类 器 的 对 象 就 被 自动 产生 。 
该 过 程 中 唯一 重要 的 部 分 就 是 生成 一 个 数据 集 ， 它 是 由 构造 函数 MessageCiassifier()j 负 责 完 成 
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的 。 首 先 ,数据 集 的 名 字 要 作为 一 个 字符 串 存 储 起 来 。 然 后 为 每 个 属性 生成 一 个 4tripute 对 象 ， 
-个 用 来 持 有 与 文本 消息 相对 应 的 字符 串 ， 另 一 个 则 用 于 持 有 数据 集 的 类 属性 。 这 些 对 象 是 
存储 在 一 个 FastVector 类 型 的 动态 数组 中 。(FasrtVector 是 标准 Java Vector class 的 Weka 自 我 实 
现 ， 因 为 历史 原因 ， 该 类 在 Weka 中 广泛 使 用 .) 





——_ 


[>x 
* Java program for classifying text messages into two classes. 
*/ 


import weka.core.Attribute; 

import weka.core. Instance; 

import weka.core.Instances; 

import weka.core.FastVector; 

import weka.core.Utils; 

import weka.classifiers.Classifier; 

import weka.classifiers.trees.J48; 

import weka.filters.Filter; 

import weka.filters.unsupervised.attribute.StringToWordVector; 
import java.io.*; 


public class MessageClassifier implements Serializable { 


/* The training data gathered so far. */ 
private Instances m Data = null; 


/* The filter used to generate the word counts. */ 
private StringToWordVector m Filter = new StringToWordVector () ; 


/* The actual classifier. */ 
private Classifier m Classifier = new J48(); 


/* Whether the model is up to date. */ 
private boolean m_UpToDate; 


{me 
* Constructs empty training dataset. 
*/ 


public MessageClassifier() throws Exception { 


String nameOfDataset = "MessageClassificationProblem"; 


// Create vector of attributes. 
FastVector attributes = new FastVector (2); 


// Add attribute for holding messages. 
attributes.addElement (new Attribute("Message", (FastVector)nul}l)); 


// AAG class attribute. 

FastVector classValues = new FastVector (2); 
classValues.addElement ("miss"); 
classValues.addElement ("hit"); 


attributes .addElement (new Attribute("Class", classValues) ) ; 


图 14-1 消息 分 类 器 的 源 代码 
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// Create dataset with initial capacity of 100, and set index of class. 
m Data = new Instances (nameOfDataset, attributes, 100); 





m_Data.setClassindex(m Data.numAttributes() - 1); 
} 
jer 

* Updates data using the given training message. 
*/ 


public void updateData (String message, String classValue) throws Exception { 


// Make message into instance. 
Instance instance = makeInstance (message, m_Data) ; 


// Set class value for instance. 
instance. setClassValue (classValue) ; 


// Add instance to training data. 
m_Data.add (instance) ; 
m_UpToDate = false; 


} 





{wr 
* Classifies a given message. 
+; 


public void classifyMessage (String message) throws Exception { 


‘/ Check whether classifier has been built. 
if (m_Data.numInstances() == 0) { 
throw new Exception("No classifier available. "); 





} 


// Check whether classifier and filter are up to date. 
if (!m_UpToDate) { 

// Initialize filter and tell it about the input format. 
m_Filter.setInputFormat (m_Data) ; 


// Generate word counts from the training data. 
Instances filteredData = Filter.useFilter(m Data, m_Filter) ; 


// Rebuild classifier. 
m_Classifier.buildClassifier (filteredData) ; 
m_UpToDate = true; 


// Make separate little test set so that message 
// does not get added to string attribute in m_Data. 
Instances testset = m_Data.stringFreeStructure() ; 


// Make message into test instance. 
Instance instance = makeInstance (message, testset); 


// Filter instance. 
m_Filter. input (instance) ; 
Instance filteredInstance = m_Filter.output (); 


图 14-1 ( 续 ) 
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// Get index of predicted class value. 


double predicted = m Classifier .classifyInstance(filteredInstance) ; 





// Output class value. 
System.err.println ("Message classified as : " + 
m_Data.classAttribute() .value( (int) predicted) ) ; 


/fw 

* Method that converts a text message into an instance. 

*/ 

private Instance makeInstance (String text, Instances data) { 





/: Create instance of length two. 
Instance instance = new Instance(2); 


// Set value for message attribute 

Attribute messageAtt = data.attribute ("Message"); 

instance. setValue (messageAtt, messageAtt .addStringValue (text) ) ; 

// Give instance access to attribute information from the dataset. 
instance. setDataset (data) ; 

return instance; 


ie 


* Main method. 


*/ 





public static void main(String[] options) { 


try { 


// Read message file into string. 
String messageName = Utils.getOption('m', options); 
if (messageName.length() == 0) { 
throw new Exception("Must provide name of message file."); 





} 


FileReader m = new FileReader (messageName) ; 
StringBuffer message = new StringBuffer(); int 1; 
while ((1 = m.read(}) != -1) { 

message. append ( (char) 1) ; 
} 


m.close() ; 


// Check if class value is given. 
String classValue = Utils.getOption('c', options}; 


// If model file exists, read it, otherwise create new one. 
String modelName = Utils.getOption('t', options); 
if (modelName.length() == 0) { 

throw new Exception("Must provide name of model file."); 
} 


MessageClassifier messageCl; 
try { 








图 14-1 ( 续 ) 
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ObjectInputStream modelInObjectFile = 
new ObjectInputStream(new FileInputStream (modelName) ) ; 
messageCl = (MessageClassifier) modelInObjectFile.readObject () ; 
modelInObjectFile.close(); 
} catch (FileNotFoundException e) { 
messageCl] = new MessageClaseifier(); 


} 


// Check if there are any options left 
Utils. checkForRemainingOptions (options) ; 





// Process message. 


if (classValue.length() != 0) { 
messageCl .updateData (message.toString(), classValue) ; 
} else { 


messageCl .classifyMessage (message. toString ()); 


} 


// Save message classifier object. 
ObjectOutputStream modelOutObjectFile = 

new ObjectOutputStream(new FileOutputStream(modelName) ) ; 
modeloutObjectFile.writeObject (messageC1) ; 
modeloutObjectFile.close() ; 
catch (Exception e) { 
e.printStackTrace() ; 


we 








} 
| 
图 14-1 ( 续 ) 

属性 是 通过 调用 类 Atiribute 中 的 一 个 构造 函数 来 完成 的 。 在 该 类 中 有 一 个 构造 函数 ， 该 函 
数 接受 一 个 参数 ， 即 属性 的 名 字 ， 并 生成 一 个 数值 性 属性 。 然 而 ， 我 们 这 里 用 的 这 个 构造 函 
数 须 接受 两 个 参数 : 属性 的 名 字 和 指向 FastVector 的 一 个 参考 。 如 果 这 个 参考 是 空 ， 就 像 该 构 
造 函 数 在 我 们 的 程序 中 的 第 一 次 应 用 那样 ，Weka 会 生成 一 个 字符 串 类 型 的 属性 。 否 则 的 话 ， 
则 生成 一 个 名 词性 属性 。 我 们 在 前 面 的 探讨 中 是 假定 FastVector 所 持 有 的 是 字符 串 类 型 的 属性 
值 。 这 就 是 我 们 所 谈 到 的 用 两 个 值 hit 和 miss 来 生成 一 个 类 属性 : 即 通过 将 属性 的 名 字 (class) 
和 存储 在 一 个 FastVector 中 的 该 属性 的 值 传 给 Attribute()。 

要 由 属性 信息 生成 一 个 数据 集 ，MessageClassifier() 必 须 生成 一 个 core 包 中 类 Instances 的 
对 象 。MessageClassifier() 中 调用 的 Instances 类 的 构造 函数 楼 受 三 个 可 变 参 数 ， 数 据 集 的 名 字 ， 
含有 数据 集 属性 的 一 个 Fasryector， 以 及 表示 数据 集 初 始 容量 的 一 个 整数 。 我 们 将 初始 容量 设 
为 100; 如 果 增 加 实例 ， 其 容量 会 自动 增加 。 构 建 好 数据 集 后 ，MessageClassifier() 会 把 类 属 
性 的 索引 设 定 为 最 后 一 个 属性 的 索引 。 


14.2.3 updateData() 


现在 用 户 知道 了 如 何 生 成 一 个 空 的 数据 集 ， 再 来 看 MessageClassifier 对 象 是 如 何 具体 收纳 
一 个 新 的 训练 消息 的 。 方 法 updateData(l) 可 完成 这 项 工作 。 它 首先 调用 makelnstance() 来 生成 
一 个 类 17mstance 的 对 象 ， 该 对 象 对 应 着 -- 个 含有 两 个 属性 的 实例 ， 如 此 一 来 ， 它 就 把 一 个 给 定 
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的 消息 转换 成 了 一 个 训练 实例 。Instance 对 象 的 构造 函数 将 所 有 实例 的 值 设 为 missing， 其 加 权 
值 设 为 1。make1nastancefj) 接 下 来 是 设 定 持 有 消息 文本 的 字符 串 属性 的 值 。 这 可 通过 调 几 
Instance 对 象 中 的 setrValue() 方 法 来 完成 。 有 两 个 参数 需要 提供 给 这 个 方法 ， 一 个 是 其 值 需 要 被 
修改 的 属性 ， 另 一 个 参数 是 字符 串 属 性 的 定义 中 对 应 着 新 值 的 索引 。 这 个 索引 是 由 
addStringValue() 方 法 返回 的 ， 该 方法 将 消息 文本 作为 个 新 值 加 到 字符 串 属性 中 ， 并 返回 这 
个 新 值 在 字符 串 属性 定义 中 的 位 置 。 

从 内 部 机 制 来 说 ， 不 论 相对 应 的 属性 是 什么 类 型 的 ， 一 个 jnstance 会 把 所 有 的 属性 值 存储 
成 双 精 度 浮 点 小 数 。 如 果 是 名 词性 和 字符 串 属 性 ， 只 需 存 储 相 对 应 属性 在 属性 定义 的 索引 就 
可 以 了 。 例 如 .名 词性 属性 的 第 一 个 值 用 0.0 表 示 ， 第 二 个 用 1.0 表 示 ， 并 依 此 类 推 。 同 样 方法 
也 可 用 于 字符 串 属性 : addStringValue() 返 回 的 是 对 应 于 加 到 属性 定义 中 的 值 的 索引 。 

设 定好 字符 串 属性 的 值 后 ，makelnstance() 会 将 一 个 指向 数据 集 的 参考 传 给 新 生成 的 实例 ， 
从 而 使 该 实例 可 以 读 取 数 据 的 属性 信息 。 在 Weka 中 ， 一 个 Instance 对 象 不 会 直接 存储 每 个 属 
性 的 类 型 ; 而 是 存储 一 个 指向 含有 相应 属性 信息 的 数据 集 的 :个 参考 。 

现在 回 到 updateData()}。 一 旦 makelInstance() 返 回 了 新 的 实例 ， 它 的 类 值 就 已 经 设 定 完 成 ， 
且 该 实例 已 经 被 加 进 训练 数据 。 我 们 还 会 将 m_UpToDate 初 始 化 ， 它 是 一 个 显示 训练 数据 已 经 
发 生变 化 ， 且 预测 模型 因此 需要 更 新 的 旗 标 。 


14.2.4 classifyMessage() 


现在 让 我 们 来 看 看 MessageClassifier 是 如 何 处 理 -… 个 类 标签 未 知 的 消息 的 。 
ClassifyMessage() 方 法 首先 通过 确定 是 人 否 准 备 好 训练 数据 ,来 查看 一 个 分 类 器 是 否 已 经 构建 好 。 
然后 ， 再 查看 该 分 类 器 是 否 需 要 更 新 。 如 果 分 类 器 不 是 最 新 版 本 (因为 训练 数据 已 经 被 更 改 ) 
它 必须 重新 建立 分 类 器 。 然 而 ， 在 做 这 项 工作 以 前 ， 必 须 用 StringToWordVector 过 滤器 将 数据 
转换 成 一 个 可 适用 于 学 习 的 格式 。 首 先 ， 我 们 用 setnpurFormatf) 将 一 个 指向 输入 数据 集 的 参 
考 传 递 给 该 过 滤器 、 以 使 其 知道 待 输入 数据 的 格式 。 每 调用 一 次 setInputFormat() 方 法 ， 该 过 
滤器 就 初始 化 -- 遍 。 即 所 有 的 内 部 设置 都 被 重新 归 位 。 下 一 步 ， 用 useFilter() 对 数据 进行 转换 。 
这 个 来 自 于 Filter 类 的 通用 方法 将 一 个 过 滤器 应 用 十 一 个 数据 集 。 此 时 ， 因 为 
StringToWordVector 刚 刚 被 初始 化 ， 它 会 从 训练 数据 集 计算 出 -个 字典 ， 并 用 该 字典 形成 一 个 
字 向 量 。 从 useFilrerf) 方 法 返回 后 ， 所 有 该 过 沥 器 的 内 部 设置 都 保持 不 变 直到 再 一 次 调用 
inputFormat() 令 其 重新 初始 化 。 这 使 得 在 无 需 更 新 过 滤器 的 内 部 设置 (在 这 种 情况 下 指 字典 ) 
的 条 件 下 过 让 一 个 测试 实例 成 为 可 能 。 

-日 数据 被 过 滤 ， 该 程序 就 会 将 训练 数据 传递 给 它 的 方法 buildClassifier{)， 重 新 构建 分 
类 器 ， 在 所 举 的 例子 中 ， 就 是 J4.8 决 策 树 ， 并 将 m_UpToDate 设 为 真 (true)。 在 产生 一 个 新 的 
分 类 器 之 前 ， 用 buildaClassifier() 方 法 彻底 初始 化 所 用 模型 的 内 部 设置 是 Weka 的 一 个 重要 传统 。 
因此 ， 我 们 没有 必要 在 调用 buildClassifier{) 之 前 构建 一 个 新 的 J48 对 象 。 

在 确保 存储 在 m_Classifier 中 的 模型 是 最 新 的 条 件 下 ， 我 们 可 以 着 手 对 消息 进行 分 类 了 。 
在 调 用 makelInstance() 以 便 根据 消息 生成 一 个 实例 对 象 之 前 、 需 生成 一 个 新 的 Instances 对 象 用 
来 持 有 这 个 实例 ， 且 该 对 象 将 作为 -个 可 变 参 数 传 给 makelInstance{)。 这 样 做 的 目的 是 使 
maKe1astartcef) 不 必 将 消息 文本 加 进 m_Para 中 的 字符 串 属 性 。 人 否则 ， 每 当 一 个 新 消息 候 分 类 ， 
m_Data 对 象 的 尺寸 就 会 增 大 ， 这 明显 不 合适 ， 因 为 只 有 在 加 入 训练 实例 的 时 候 m_Data 才 应 当 
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扩大 。 因 此 ， 生 成 一 个 临时 的 Instances 对 象 ， 一 旦 它 所 持 有 的 实例 处 理 完毕 ， 即 将 其 删除 。 
这 个 对 象 可 用 stringFreeStructure() 方 法 得 到 ， 该 方法 返回 一 个 含有 空 字符 串 属性 的 m_Data 对 
象 的 复制 。 以 上 这 些 完成 后 ，makelInstance() 方 法 才 会 被 调用 以 生成 所 要 的 新 实例 。 

测试 实例 在 分 类 之 前 也 必须 经 StringToWordVector 过 滤器 处 理 。 这 并 不 难 : input() 方 法 将 
实例 送 入 过 滤器 对 象 ， 经 过 转化 的 实例 可 通过 调用 outpui() 取 得 。 然 后 ， 将 实例 传递 给 分 类 器 
的 classifyInstance() 方 法 ， 即 可 产生 一 个 预测 。 正 如 用 户 所 看 到 的 ， 预 测 是 作为 一 个 双 精 度 浮 
点 小 数 编 入 代码 的 。 这 就 使 得 Weka 的 评估 模块 可 用 类 似 的 手段 来 处 理 类 别 化 预测 和 数值 性 预 
和 测 的 模型 。 对 于 类 别 化 预测 ， 正 如 上 面 所 举 的 例子 ，double 变 量 的 值 就 是 所 预测 出 的 类 值 的 
索引 。 为 了 输出 对 应 于 这 个 类 值 的 字符 串 ， 该 程序 调用 了 数据 集 类 属性 的 valuef) 方 法 。 

至 少 有 -一 种 方式 可 以 对 我 们 以 上 的 实现 做 出 改进 。 分 类 器 和 StringToWordVector 过 滤器 可 
以 用 第 10.3 节 中 描述 过 的 FiltrerClassifier 元 学 习 器 合并 到 一 起 。 合 并 后 的 分 类 器 便 无 需 调用 过 
滤器 来 转换 数据 ， 可 直接 处 理 字符 捉 属性 。 我 们 没有 这 样 做 ， 是 因为 我 们 想 演 示 过 滤器 是 如 

[469] 何 通过 编写 代码 的 方式 使 用 的 。 
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如 果 用 户 需要 实现 一 个 Weka 所 没有 的 特殊 目的 的 学 习 算法 ， 或 者 用 户 正 在 进行 机 器 学 习 
的 研究 ， 并 且 想 试验 一 个 新 的 学 习 方 案 ， 或 者 用 户 只 是 想 通 过 亲自 动手 编程 ， 了 解 更 多 有 关 
:个 归纳 算法 的 内 部 运作 、 本 节 用 - -个 简单 的 范例 演示 在 编写 分 类 器 时 ， 如 何 充 分 利用 Weka 
的 类 的 层级 结构 ， 从 而 满足 用 户 的 需要 。 
Weka 包 含 了 表 15-1 中 所 列 的 基本 的 、 士 要 用 于 教育 自 的 的 学 习 方 案 。 表 中 的 方案 对 于 接 
受命 令 行 选项 没有 特别 要 求 。 它 们 对 于 理解 分 类 器 的 内 部 运作 都 很 有 用 。 我 们 会 将 
weka.classifiers.trees.1d3 作 为 -… 个 例子 讨论 ， 该 方案 实现 了 第 4.3 节 中 的 ID3 决 策 树 学 习 器 。 


表 15-1 Weka 中 的 简单 学 习 方 案 





方 ” 案 fi ak fai ae fi 
weka.classifiers.bayes. NaiveBayesSimple ROR | 4.2 
weka.classifiers.trees.1d3 RRR EJA 4.3 
weka.classifiers.rules.Prism PURO] 4.4 
weka.classifiers.jazy.1B 1 基 于 实例 的 学 习 器 4.7 


15.1 一 个 分 类 器 范例 


图 15-1 给 出 了 weka.classifiers.trees.143 的 源 代码 ， 用 户 从 代码 中 可 看 出 它 扩展 Classifier 类 。 
无 论 是 用 于 预测 名 词性 类 还 是 预测 数 秆 性 类 ， 每 个 Weka 中 的 分 类 器 都 必须 扩展 ClassiFer 类 。 

weka.classifiers.trees.1d3 方 案 中 的 第 -个 方法 是 globalInfo():，” 我们 在 进入 到 更 有 趣 的 部 分 
之 前 先 谈 谈 这 个 方法 。 当 这 个 方案 在 Weka 的 图 形 用 户 界面 上 被 选中 时 ， 该 方法 只 是 简单 地 返 
同一 个 显示 在 屏 幕 上 的 字符 串 。 


15.1.1 buildClassifier() 


buildClassifier() 方 法 根据 训练 数据 集 构建 一 个 分 类 器 。 因 为 ID3 算 法 无 法 处 理 非 名 词性 类 ， 
残缺 属性 值 、 或 任何 非 名 词性 的 属性 ， 因 此 ，buildClassifier() 方 法 首先 在 数据 中 对 以 上 提 到 
的 进行 查验 。 然 后 、 它 会 生成 一 个 训练 集 的 复制 件 (以 避免 改变 原始 数据 )， 并 调用 
weka.core.Instances 中 的 一 个 方法 来 删除 所 有 含 残缺 类 值 的 实例 ， 因 为 这 些 实 例 在 训练 过 程 中 
不 起 作用 。 最 后 ， 它 会 调用 make7yree()， 该 方法 实际 上 通过 递归 的 方式 产生 所 有 附加 到 根 节点 
上 的 子 树 ， 从 而 生成 一 个 决策 树 。 


15.1.2 makeTree() 


作 makeTree{}) 中 、 第 一- 步 是 检查 数据 集 是 否 为 空 。 如 果 是 ， 通 过 将 m_Attribute 设 为 空 生成 
-个 时 节点 。 为 读 叶 指定 的 类 值 m_CiassValue 设 定 为 残缺 ， 且 m_Distribution 中 为 数据 集中 的 
每 个 类 所 估计 的 概率 和 皆 初 始 化 为 0。 如 果 训 练 实例 已 准备 好 ，makeTree() 会 找 出 令 这 些 实例 产 
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生 最 大 信息 增益 的 属性 。 它 首先 生成 一 个 数据 集 属性 的 Java 枚 举 。 如 果 类 属性 的 索引 已 经 设 
定 ， 像 正在 讨论 的 这 个 数据 集 设 定 一 样 ， 该 类 属性 会 被 自动 排除 在 该 枚 举 之 外 。 

在 枚 举 内 部 ， 每 个 属性 的 信息 增益 都 由 computeInfoGain({) 计 算出 来 并 存储 在 一 个 数组 中 。 
我 们 以 后 会 重新 讲 这 个 方法 。weka.core.Attribute 中 的 index() 方 法 可 返回 数据 集中 属性 的 索引 。 
它 可 为 刚刚 提 到 的 数组 编制 索引 。-- 旦 完成 了 枚 举 ， 具 有 最 大 信息 增益 的 属性 就 会 存储 在 实例 
变量 m_Attribute 中 。Weka.core.Utils 中 的 maxindex() 方 法 会 返回 一 个 由 整数 或 双 精 度 淫 点 小 数 构 
成 的 数组 中 最 大 值 的 索引 。( 如 果 具 有 最 大 值 的 组 元 不 止 一 个 ， 那 么 只 有 第 一 个 被 返回 。) 该 属 
性 的 索引 会 被 传 给 weka.core.Instances 中 的 attribute() 方 法 ， 该 方法 返回 与 索引 相对 应 的 属性 。 





package weka.classifiers.trees; 


import weka.classifiers.*; 
import weka.core.*; 

import java.io.*; 

import java.util.*; 


[ur 

* Class implementing an Id3 decision tree classifier. 
mp 

as 


public class 1d3 extends Classifier { 


/** The node's successors. */ 
private Id3[] m Successors; 


/** Attribute used for splitting. */ 
private Attribute m Attribute; 


/** Class value if node is leaf. */ 


private double m_ClassValue; 


‘** Class distribution if node is leaf. */ 
private double{] m Distribution; 


/** Class attribute of dataset. */ 
private Attribute m_ClassAttribute; 


ik 

* Returns a string describing the classifier. 
* @return a description suitable for the GUI. 
af 

public String globalinfo() { 


return "Class for constructing an unpruned decision tree based on the ID3 " 
+ “algorithm. Can only deal with nominal attributes. No missing values " 
+ "allowed. Empty leaves may result in unclassified instances. For more " 
+ "information see: \n\n" 
+ " R. Quinlan (1986). \"Induction of decision " 
+ "trees\". Machine Learning. Vol.1, No.1, pp. 81-106"; 











图 15-1 1D3 决 策 树 学 习 器 的 源 代码 
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jee 

* Builds Id3 decision tree classifier. 

* 

* @param data the training data 

* @exception Exception if classifier can't be built successfully 
*/ 

public void buildClassifier(Instances data) throws Exception { 


if (!data.classAttribute().isNominal()} { 
throw new UnsupportedClassTypeException("Id3: nominal class, please."); 
} 
Enumeration enumAtt = data.enumerateAttributes () ; 
while (enumAtt .hasMoreElements()) { 
if (!((Attribute) enumAtt.nextElement ()).isNominal()) { 


throw new UnsupportedAttributeTypeException("Id3: only nominal " + 
"attributes, please."); 


} 


Enumeration enum = data.enumerateInstances () ; 


while (enum.hasMoreElements()) { 
if (((Instance) enum.nextElement ()) .hasMissingValue()) { 
throw new NoSupport ForMissingValuesException("Id3: no missing values, " 


+ "please."); 


} 


data = new Instances (data) ; 
data.deleteWithMissingClass(); 
makeTree (data) ; 


[tx 

* Method for building an Id3 tree. 

* 

* @param data the training data 

* @exception Exception if decision tree can't be built successfully 
*/ 

private void makeTree(Instances data) throws Exception { 


// Check if no instances have reached this node. 
if (data.numInstances() == 0) { 

m Attribute = null; 
m_ClassValue = Instance.missingValue () ; 
m_Distribution = new double (data.numClasses()]; 
return; 


// Compute attribute with maximum information gain. 
double[] infoGains = new double [data.numAttributes()]; 
Enumeration attEnum = data.enumerateAttributes (); 
while (attEnum.hasMoreElements()) { 


Attribute att = ‘Attribute) attEnum.nextElement () ; 


图 15-1 ( 续 ) 
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eee 
infoGains [att.index()] = computeInfoGain(data, att); 


} 


m_Attribute = data.attribute (Utils.maxIndex(infoGains) ); 


// Make leaf if information gain is zero. 
// Otherwise create successors. 
if (Utils.eq(infoGains (m_Attribute.index()], 0)) { 
m_Attribute = null; 
m Distribution = new double [data.numClasses()}]; 
Enumeration instEnum = data.enumerateInstances () ; 
while (instEnum.hasMoreElements()) { 
Instance inst = (Instance) instEnum.nextElement () ; 
m_Distribution[(int) inst.classValue()}++; 
} 
Utils.normalize (m_Distribution) ; 
m_ClassValue = Utils.maxIndex(m Distribution) ; 
m_ClassAttribute = data.classAttribute() ; 
} else { 
Instances[] splitData = splitData(data, m_Attribute) ; 
m Successors = new Id3{m_Attribute.numValues()]; 
for (int j = 0; j < m Attribute.numValues(); j++) { 
m_Successors[j] = new Id3(); 
m_Successors [j] .makeTree(splitData[j]); 


} 


jt 
* Classifies a given test instance using the decision tree. 
* 
* @param instance the instance to be classified 
* @return the classification 
+ 
public double classifyInstance (Instance instance) 
throws NoSupportForMissingValuesException { 


if (instance.hasMissingValue()) { 
throw new NoSupport ForMissingValuesException ("Id3: no missing values, " 
+ "Dlease."); 
A 
if (m Attribute == null) { 
return m ClassValue; 
} else í 
return m Successors [ (int) instance.value(m Attribute) ]. 
classifyInstance (instance); 


t 
* Computes class distribution for instance using decision tree. 
* 


+ 


sparam instance the instance for which distribution is to be computed 











图 15-1 ( 续 ) 
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* @return the class distribution for the given instance 
*; 


public double[{} distributionForInstance (Instance instance) 
throws NoSupportForMissingValuesException { 


if (instance. hasMissingValue()) { 
throw new NoSupportForMissingValuesException("Id3: no missing values, 
+ “please."); 
} 
if (m_Attribute == null) { 
return m_Distribution; 
} else { 
return m_Successors[(int) instance.value(m_Attribute) ] . 
distributionForInstance (instance) ; 


ae 


* Prints the decision tree using the private toString method from below. 


+ 
* @return a textual description of the classifier 


“ys 


public String toString() { 


if ((m_Distribution == null) && (m Successors == null)) { 
return "Id3: No model built yet."; 
} 


return "Id3\n\n" + toString (0); 


jee 
* Computes information gain for an attribute. 

* 

* @param data the data for which info gain is to be computed 

* @param att the attribute 

* @return the information gain for the given attribute and data 


af 


private double computeInfoGain (Instances data, Attribute att) 
throws Exception { 


double infoGain = computeEntropy (data) ; 
Instances[] splitData = splitData(data, att); 


for (int j = 0; j < att.numValues(); j++) { 
if (splitData{j}] .numinstances() > 0) { 
infoGain ~= ((double) splitData[j].numInstances() / 
(double) data.numInstances()) * 


computeEnt ropy (splitData[j]}); 


} 


return infoGain; 


jw 
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* Computes the entropy of a dataset. 


* 

* @param data the data for which entropy is to be computed 

* @return the entropy of the data's class distribution 

*/ 
private double computeEntropy (Instances data) throws Exception { 


double {] classCounts = new double(data.numClasses()]; 


Enumeration instEnum = data.enumerateInstances () ; 
while (instEnum.hasMoreElements()) { 
Instance inst = (Instance) instEnum.nextElement () ; 
classCounts[(int) inst.classValue()]++; 
} 
double entropy = 0; 
for (int j = 0; j < data.numClasses(); j++) { 
if (classCounts{[j] > 0) { 
entropy -= classCounts[j] * Utils. log2 (classCounts [j] ) ; 
} 
} 
entropy /= (double) data.numinstances({) ; 
return entropy + Utils.log2(data.numinstances()) ; 


jee 
* Splits a dataset according to the values of a nominal attribute. 
* + 

* @param data the data which is to be split 

* @param att the attribute to be used for splitting 

* @return the sets of instances produced by the split 

*/ 
private Instances[] splitData(Instances data, Attribute att) { 


Instances[] splitData = new Instances [att .numValues ()]; 
for (int j = 0; j < att.numValues(); j++) { 
splitData[j] = new Instances (data, data.numInstances()); 
} 
Enumeration instEnum = data.enumerateInstances (); 
while (instEnum.hasMoreElements()) { 
Instance inst = (Instance) instEnum.nextElement () ; 
splitData[(int) inst.value(att)].add(inst) ; 





} 
for (int i = 0; i < splitData.length; i++) { 
splitData [i] .compactify () ; 





} 


return splitData; 


[ee 


* Outputs a tree at a certain level. 


* 

* @param level the level at which the tree is to be printed 
*/ 

private String toString(int level) { 





图 15-1 ( 续 ) 
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StringBuffer text = new StringBuffer () ; | 


if (m Attribute == null) { 
if (Instance. isMissingValue (m_ClassValue) } { 
text .append{": null"); 
} else { 


text .append(": " + m_ClassAttribute.value((int) m_ClassValue) ) ; 
} 
} else { 
for (int j = 0; j < m_Attribute.numValues(); j++) { 


text .append("\n") ; 
for (int i = 0; i < level; i++) { 
text.append("{ *"); 
} 
text .append(m_Attribute.name() + " = " + m_Attribute.value(j)); 
text .append(m_ Successors [j] .toString(level + 1)); 
} 
} 
return text.toString(); 


} 


{fee 
* Main method. 
* 
* @param args the options for the classifier 
*/ 
public static void main(String[] args) { 


try { 
System.out .println (Evaluation. evaluateModel (new 1d3({), args)); 
} catch (Exception e) { 
System. err.print1n(e,getMessage ()); 
} 
} 
} 


LL 











图 15-1 ( 续 ) 


用 户 出 许 在 想 ， 数 组 中 与 类 属性 相对 应 的 那个 值 域 怎么 样 了 ?这 个 不 必 担 心 ， 因 为 Java 
会 自动 将 数组 中 所 有 组 元 初始 化 为 整数 0， 而 信息 增益 总 是 大 于 或 等 于 0。 如 果 最 大 信息 增益 
是 0，makeTree() 会 生成 个 叶 节 点 。 在 这 种 情况 下 ，makeTree() 会 设 为 空 , 且 makeTree() 会 同 
时 计算 类 概率 的 分 布 以 及 具有 最 大 概率 的 类 。(weka.core.Utils 中 的 normalize() 方 法 会 将 一个 
双 精 度 浮 点 小 数 数组 正常 化 使 其 组 员 相 加 总 和 为 1. ) 

当 它 产生 一 个 已 指定 类 值 的 叶 节 点 时 ，makeTree() 将 类 属性 存储 到 m_ClassAttribute 中 。 
这 是 因为 用 来 输出 决策 树 的 方法 需要 读 取 该 类 值 以 便 显示 类 标签 。 

如 果 发 现 了 一 个 具有 非 零 信息 增益 的 属性 ，makeTree() 会 根据 该 属性 的 值 分 割 数据 集 ， 并 
以 递归 的 方式 为 每 个 新 产生 的 数据 集 构建 子 树 。 该 方法 调用 另 一 个 方法 splitData() 进 行 分 割 。 
这 样 就 会 生成 与 属性 值 一 样 多 个 空 的 数据 集 ， 且 把 这 些 数 据 集 存 储 到 一 个 数组 中 (将 每 个 数 
据 集 的 初始 容量 设 定 为 原始 数据 集中 所 含 实例 的 数量 ) ， 然 后 在 原始 数据 集中 将 每 个 实例 依次 
循环 一 遍 ， 并 在 新 数据 集中 根据 相对 应 的 属性 值 为 这 些 实例 开导 空间。 然后 压缩 jnstances 对 
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人 象 以 减少 占用 的 存储 器 。 返 回 到 makeTree() 后 ， 所 得 到 的 数据 集 数组 用 于 构建 子 树 。 该 方法 会 
生成 一 个 由 14d3 对 象 构成 的 数组 ， 数 组 中 的 每 个 对 象 对 应 着 一 个 属性 值 ， 并 将 相对 应 的 数据 集 
传 给 makeTree{}， 从 而 在 每 个 对 象 上 调用 该 方法 。 


15.1.3 computelnfoGain() 


现在 加 到 compureInfoGain()， 与 一 个 属性 和 一 个 数据 集 相关 联 的 信息 增益 是 用 第 4.3 节 中 
介绍 过 的 方程 式 的 一 个 直接 实现 计算 出 来 的 。 首 先 计算 出 数据 集 的 粹 ， 然 后 用 splitData() 将 数 
HEB BREE. HE ES FE LUA computeEntropy(). EE., ARAKI Se 
Ut HOR AY EAR m PE, BS Ba El. computeEntropy() H kE M 
weka.core. Utils 中 的 iog2() 方 法 得 出 一 个 数 的 对 数 (以 2 为 基数 )。 


15.1.4 classifyInstance() 


看 过 了 ID3 如 何 构 建 决策 树 ， 我 们 再 来 看 如 何 利 用 树 结构 来 预测 类 值 及 概率 。 每 一 个 分 类 
痪 都 必须 实现 classifyInstance() 方 法 或 distributionForInstance() 方 法 (或 两 个 方法 都 实现 )。 
Classifier 超 类 含有 这 两 种 方法 的 默认 实现 。classifyInstance() 的 默认 实现 调用 
distributionForlnstance()。 如 果 类 是 名 词性 的 ，classifyInstance() 会 把 具有 最 大 概率 的 属性 预 
测 为 类 ， 否 则 ， 如 果 从 distriburionForInstance() 返 回 的 所 有 概率 都 是 零 ， classifyInstance() 会 
返回 一 个 残缺 值 。 如 果 类 是 数值 性 的 ，distributionForlInstance() 必 须 返 回 有 数值 性 预测 的 单 
组 元 数组 ， 该 数组 也 就 是 ciassifyInstance() 要 提取 并 返回 的 。 最 后 ，distributionForlnstance() 
的 默认 实现 反 过 来 把 从 classifylnstance() 中 得 来 的 预测 包装 成 一 个 单一 组 元 数组 。 如 果 类 是 名 
词性 的 ， distributionForInstance() 将 概率 1 指定 给 classifyInstance(l) 预 测 出 的 类 属性 ， 把 概率 0 
指定 给 其 他 属性 。 如 果 classifyInstance() 返 回 一 个 残缺 值 ， 所 有 属性 的 概率 都 设 为 0。 为 了 让 
有 由 户 更 好 地 了 解 这 些 方法 所 做 的 工作 、weka.classifiers.trees.143 类 重新 编写 了 这 两 个 方法 。 

我 们 先 来 看 看 针对 -- 个 给 定 实例 预测 类 值 的 classifyInstance()。 上 一 节 曾 经 讲 过 ， 与 名 词 
性 属性 值 - 样 ， 名 词性 类 值 是 以 dovbie 变 量 的 形式 编码 及 存储 的 ， 表 示 值 的 名 字 在 属性 声明 
中 的 索引 。 这 种 更 简洁 有 效 的 面向 对 象 的 处 理 方 式 可 加 快运 行 速 度 。 在 ID3 的 实现 中 ， 
classifylInstance() 首 先 查 看 待 分 类 的 实例 中 是 否 有 残缺 值 。 如 果 有 的 话 ， 就 丢弃--… 个 异常 。 否 
则 ， 它 就 以 递归 的 上 方式， 根据 待 分 类 实例 的 属性 值 ， 沿 着 树 自 上 而 下 ， 直 至 到 达 某 个 未 端 叶 
节点 。 然 后 ， 它 会 返回 存储 在 该 叶 节 点 的 类 值 m_ClassValue。 要 注意 所 返回 的 也 有 可 能 是 残 
缺 值 ， 如 果 是 残缺 值 ， 该 实例 则 成 为 未 被 分 类 的 实例 。distributionForInstance() 方 法 的 工作 方 
式 与 此 完全 一 样 ， 它 返回 存储 于 m_Distribution 中 的 概率 分 布 。 

大 多 数 机 器 学 习 模 型 ， 特 别 是 决策 树 ， 大 致 上 全 面 反映 了 数据 本 身 的 结构 。 因 此 每 个 
Weka 分 类 垃 ， 如 同 许多 其 他 Java 对 象 一 样 ， 实 现 roString() 方 法 从 而 以 字符 串 变 量 的 形式 生成 
一 个 它 自身 的 文本 表述 。ID3 的 toString() 方 法 输出 一 个 与 74.8 格 式 大 致 相同 的 决策 树 (图 10-5)。 
它 通过 读 取 存储 于 节点 上 的 属性 信息 ， 以 递归 的 方式 将 树 的 结构 输入 一 个 字符 申 变 量 。 它 使 
用 weka.core.Atiribute 中 的 name({) 和 value() 方 法 得 到 每 个 属性 的 名 字 和 值 。 不 含 类 值 的 空 末端 
叶 节 点 由 字符 串 nul! 标 示 出 来 。 


15.1.5 main() 
weka.classifiers.tree.143 中 还 没有 被 描述 的 唯一 方法 就 是 main({), 每 当 由 命令 行 执行 一 个 类 ， 








RISE MEBFIDE 323 





该 方法 都 会 被 调用 。 正 如 用 户 看 到 的 一 样 ， 该 方法 很 简单 : 基本 上 就 是 告诉 Weka 的 类 
Evaluation 用 所 给 的 命令 行 选项 评估 143， 并 输出 所 得 到 的 字符 串 。 完 成 此 项 任务 的 单行 表达 式 
就 包含 在 一 个 1ry-carch 语 句 中 ， 访 语句 能 捕获 各 种 各 样 由 Weka 例 程 或 其 他 Java 方 法 于 出 的 异常 。 

Weka.classifiers.Evaluation 中 的 evaluation() 方 法 解释 了 第 13.3 节 中 讨论 过 的 ， 可 适用 于 任 
何 学 习 方 案 的 通用 命令 行 选项 及 相应 的 作用 。 例 如 ， 它 可 接受 训练 文件 名 字 的 -t 选 项 ， 并 载 
入 相对 应 的 数据 集 。 如 果 没 有 测试 文件 ， 它 就 进行 交叉 验证 ， 方 式 是 生成 一 个 分 类 器 ， 并 在 
训练 数据 的 不 同 的 子 集 上 重复 调用 buildClassifier(), classifyInstance() 和 
distributionForInstance{)。 除 非 用 户 设 定 了 相应 的 命令 行 选项 从 而 阻止 模型 的 输出 ， 它 还 会 调 
用 toString() 方 法 ， 输 出 由 整个 训练 数据 集 生 成 的 模型 。 

如 有 果 某 个 学 习 方案 需要 解释 一 个 具体 的 选项 ， 比 如 一 个 修剪 参数 ， 怎 么 办 ? 这 可 由 
weka.core 中 的 OptionHandler 接 口 来 解决 。 实 现 该 接口 的 分 类 器 含有 三 个 方法 : listOptions(), 
setOptions{) 和 getOptions{)。 它 们 分 别 用 来 列 出 所 有 针对 该 分 类 器 的 选项 ， 设 定 其 中 某 些 选项 ， 
以 及 取得 有 目前 已 设 定 的 选项 。 如 果 … 个 分 类 器 实现 了 OptionHandler 接 日 ，Evaluation 类 中 的 
evaluation() 方 法 会 自动 调用 这 些 方 法 。 处 理 完 通用 选项 后 ，evaluation() 会 调用 setOption() 来 
处 理 余下 的 选项 ， 然 后 利用 buildClassifier() 产 生 一 个 新 的 分 类 器 。 输 出 所 产生 的 分 类 器 ， 
evaluation() 会 用 gertOptrions() 输 出 一 - 列 目 前 已 设 定 的 选项 。 在 weka.classifiers.rules.OneR 的 源 
代码 中 可 找到 … 个 如 何 实现 这 些 方法 的 简单 范例 。 

OptionHandler 使 得 在 命令 行 中 设 定 选项 成 为 可 能 。 要 在 图 形 用 户 界 面 中 设 定 这 些 选 项 ， 
Weka 使 用 的 是 Java 豆 的 架构 。 实 施 访 构架 所 要 做 的 全 部 工作 就 是 为 一 个 类 中 所 用 到 的 每 个 参 
数 都 提供 sez...() 及 ger..….() 方 法 。 比 方 说 ， 方 i&setPruningParameter()#ilgetPruningParameter() 
对 于 -个 修剪 参数 来 说 就 是 必须 的 。 还 有 -一 个 方法 也 必 不 可 少 ，pruningParameterTipText() 返 
问 的 是 显示 在 图 形 用 户 界面 上 的 对 该 参数 的 一 个 描述 。 再 强调 -次 ， 见 weka. 
classifiers.rules.OneR 中 的 例子 。 

- 些 分 类 器 可 在 新 的 训练 实例 陆续 到 达 时 进行 递增 更 新 ， 并 且 不 需要 在 同 … 批 中 处 理 全 
部 数据 。 在 Weka 中 . 递增 分 类 器 须 实现 weka.classifiers 中 的 UpdateableClassifier 接 口 。 访 接口 
只 直上 明了 一 个 名 为 4pdareClassifier() 的 方法 、 该 方法 只 接受 一 个 单独 的 训练 实例 作为 它 的 可 变 
BR. BER 个 如 何 使 用 该 接口 的 例子 ， 见 weka.classifiers.1azy.1Bk 的 源 代码 。 

如 果 一 个 分 类 器 能 运用 实例 的 权 ， 它 必 须 实现 weka.core 中 的 WeightedInstancesHandler() 
接口 。 如 此 来 其 他 的 算法 ， 比 方 说 那些 用 于 提升 的 算法 ， 就 可 对 该 属性 加 以 利用 。 

在 weka.core 中 还 有 很 多 其 他 对 于 分 类 器 来 说 很 有 用 的 接口 ， 例 如 ，randomizable， 
summarizable, drawable. ， 和 graphable 这 些 用 于 分 类 器 的 接口 。 有 关 接 口 的 更 多 信息 ， 见 [482 
weka.core 中 相应 类 的 Javadoc 。 


15.2 与 实现 分 类 器 有 关 的 惯例 


在 实现 Wekae 中 的 分 类 器 时 、 有 … 些 惯例 用 户 必须 遵守 。 和 否则 ， 程 序 会 出 错 。 比 方 说 ， 
Weka 的 评估 模块 在 评估 分 类 器 时 可 能 会 无 法 恰当 地 计算 它 的 统计 数据 。 

第 一 个 惯例 前 面 已 经 提 到 过 ， 当 -个 分 类 器 的 buildClassifier() 方 法 被 调用 时 ， 必 须 令 模 
型 重新 复位 。 类 CheckClassifier 进 行 测试 ， 确 保 模 型 的 确 被 复位 了 。 当 buildClassifier{) 在 某 个 
数据 集 上 被 调用 时 ， 无 论 该 分 类 器 以 前 已 经 在 同一 个 或 其 他 的 数据 集 上 被 调用 过 多 少 次 ， 所 
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得 到 的 结果 必须 是 一 样 的。 还 有 ， 一 些 实例 变量 是 与 某 些 只 适用 于 具体 方案 的 选项 相对 应 的 ， 
buildClassifier() 方 法 绝对 不 可 以 将 这 些 变量 复位 ， 因 为 这 些 变 量 的 值 一 旦 被 设 定 ， 它 们 在 多 
次 调用 buildClassifier() 的 过 程 中 必须 保持 不 变 。 还 有 ， 调 用 buildClassifier() 绝 对 不 可 以 改动 输 
人 数据 。 

另外 两 个 惯例 以 前 也 提 到 过 。 一 个 是 当 菜 个 分 类 器 无 法 做 出 预测 时 ， 它 的 
classifylInstance() 方 法 必须 返回 Instance.missingValue{)， 且 它 的 distributionForlInstance() 方 法 
必须 针对 所 有 类 属性 都 返回 0 概率 。 图 15-1 中 的 ID3 实 现 就 是 这 么 做 的 。 另 外 一 个 惯例 是 这 样 
的 ， 对 于 用 作 数 值 性 预测 的 分 类 器 来 说 ， 它 的 classifyInstance() 要 返回 分 类 器 所 预测 出 的 数值 
性 类 值 。 还 有 一 些 分 类 器 可 以 对 名 词性 的 类 和 类 概率 ， 以 及 数值 性 的 类 值 做 出 预测 ， 
weka.classifiers.lazy.1Bk 就 是 一 个 例子 。 这 些 分 类 器 实现 了 distributionForInstance() 方 法 ， 如 果 
类 是 数值 性 的 ， 它 会 返回 一 个 单一 组 元 数组 ， 其 唯一 组 元 就 含有 所 预测 的 数值 性 值 。 

另外 一 个 惯例 虽然 并 不 是 不 可 或 缺 ， 但 不 管 怎么 说 都 是 有 益 的 ， 即 每 个 分 类 器 都 实现 一 
个 toString() 方 法 、 用 于 输出 一 个 它 自身 的 文本 描述 。 
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System) (计算 机 辅助 旅客 预 筛选 系统 )，357 

CART (Classification And Regression Tree) (分 类 及 回 
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Vi). 29. 38,199, 253 
categorical attributes (范畴 属性 )，49. See also nominal 
attributes 
category utility (类 别 效用 )、260-262 
casual relations (因果 关系 )，350 
CfsSubserEval. 422 
chain rule (probability theory )( 链 规则 (概率 理论 ) ). 
275 
character sets ( 字符 集 )、310 
ChiSquaredAttributeEval, 423 
chi-squared test (7° Wik), 302 
circular ordering ( 循环 排序 )，5$1 
city-block metric (city-block RE ie). 129 
ClassAssigner, 431 
class attribute ( 类 属性 )、43 
class distribution ( 类 分 布 )，304 
class hierarchy in Weka (Weka 中 的 类 层次 结构 )，471- 
483 
classification (分 类 )、121 
Classification And Regression Tree (CART) (分 类 及 回 
YR) 29, 38. 199, 253 
classification learning (分 类 学 习 )、43 
classification problems ( 分 类 问题 ) 42 
classification rules (分 类 规则 )，65-69，200-214 
converting decision trees to (将 决策 树 转换 为 )，198 
criteria for choosing tests (测试 选择 的 标准 )}、200- 
201 
decision list (决策 列 )、11 
different from association rules ( 与 关联 规则 不 同 )、 
42 
global optimization (全 局 优化 )、205-207 
good (worthwhile) rules (好 的 (有 价值 的 ) 规则 )、 
202-205 
missing values (残缺 值 )、201-202 
numeric attributes (数值 属性 )，202 
partial decision tree ( 局 部 决策 树 )，207-210 
pruning (f£8)), 203. 205 
replicated subtree problem (重复 子 树 门 题 ) 、66-68 
RIPPER rule learner (RIPPER 规则 学 >] 器 )、205 
rules with exceptions ( 含 例外 的 规则 )，210-213 
Weka，408-409 
Classifier, 453 
classifier in Weka (Weka 中 的 分 类 器 )、366，471-483 
classifier algorithms (分 类 器 算法 ) .See learning 
algorithms 
classifier errors in Weka (Weka 中 的 分 类 器 误差 )，379 


ClassifierPerformanceEvaluator, 431 
classifiers package (47 R# tL), 453-455 
ClassifierSubsetEval, 422 
Classifier superclass, 480 
classifyInstance (), 453, 480-481 
Classify panel. 373, 384 
classify text files into two categories 
PR 2E BIL), 461-469 

Classit, 271 
class noise (Xa TH). 313 
ClassOrder, 403 
class summary, 451 
ClassValuePicker, 431 
cleaning data (清理 数据 )，52，60 

automatic (自动 的 )，312 
closed world assumption (闭合 世界 的 假设 )，45 
ClustererPerformanceEvaluator, 431 
clustering (RÆ), 43, 136-139, 254-271 

anomalies (ff). 258 

basic assumption (基本 假设 )、270 

Bayesian ( 贝 叶 斯 )，268-270 

category utility (类 别 效用 )，260-262 

Cluster panel (Weka), 391-392 

document (文件 )，353 

EM algorithm (EM 算法 )，265-266 

faster distance calculations (快速 中 离 计算 )，138- 

139 

hierarchical ( 等 级 的 )，139 

how many clusters ( g/b R% ), 254-255 

incremental (3648) ), 255-260 

k-means (k#¥j{fi), 137-138 

MDL principal (MDL 原理)，183-184 

merging (合并 )，257 

mixture model (7 #4! ), 262-264, 266-268 

output (Hi). 81-82 

probability-based (JE FEI), 262-265 

RBF network (RBF 网 络 )，234 

splitting (4748), 254-255, 257 

unlabeled data (无 标签 数据 ) 337-339 
(Weka 中 的 聚 类 算法 )， 


(将 文本 文件 分 成 


clustering algorithms in Weka 
418-419 

clustering for classification (用 于 分 类 的 罕 类 )，337 

ClusterMembership, 396, 397 

Cluster panel, 391-392 

Cobweb, 271 

Cobweb in Weka, 419 
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co-EM, 340 
column separation ( l]4) BH). 336 
combining multiple models (417% PEAY). 287. 
315-336 
additive logistic regression ( @fillogistic pija). 327- 
328 
additive regression (4 fullel 7). 
bagging (XWR). 316-319 
bagging with costs ( HEA ARR). 319-320 
boosting (# 7} }. 321-325 
error-correcting output codes (iR X: żuk% HRe). 
334-336 
logistic model trees (logistic RAM! HE). 331 
option trees (WRP). 328-331 
randomization (ff #L{E ). 320-322 
stacking (HER). 332-334 
command-line interface (命令 行 界面 )}. 449-459 
class (类 ). 450. 452 
classifiers package (分 类 器 人 包 ). 453-455 
core package (核心 似 )、451.452 
- 般 选 项 ) . 456-458 
instance ( 实例). 450 
Javadoc indices (Java 文 本 索 31). 456 
package ( (1). 451.452 
scheme-specific options ( 仅 适 用 于 某 个 具体 模式 的 选 
TH). 458-459 
starting up (HGF). 


weak.associations. 455 


325-327 


generic options ( 


449-450 


weak.attributeSelection, 455 
weak. clusterers 455 
weak.estimators. 455 


weak filters, 455 


command-line options {命令 行 选项 )，456-459 
comma-sperated value (CSV) format (以 过 号 来 分 隔 


值 的 格式 )、370、371 
comparing data mining methods (比较 数据 控 掘 方法 ). 
153-157 
ComplementNaiveBaves, 405 
compression techniques (压缩 技术 ) 362 
computational learning theory (计算 学 习 理论 )，324 
computeEntropy (). 480 
Computer Assisted Passenger Pre-Screening System 
(CAPPS )，( 计算 机 辅助 旅客 预 筛 选 系 统 ) 、357 
computer network security (计算 机 网 络 安全 )，35S7 
computer software ( 计算 机 软件 ) . See Weka workbench 
concept (HHA). 42 


concept description (概念 描述 )，42 

concept description language (概念 描述 语言 )，32 

(概念 表达 )，82. See also 
knowiedge representation 

conditional independence (条 件 独 站 )，275 

conditional likelihood for scoring networks (网 络 评分 的 
条 件 似 然 率 )，280，283 

confidence (置信 应 )，69，113,324 

Confidence . 420 

confidence tests (置信 和 度 测 试 )，154-157，184 

conflict resolution strategies (冲突 解决 策略 )，82 

confusion matrix (hkk). 163 

conjunction (联合 ). 65 

ConjunctiveRule, 408-409 

consensus filter (共识 过 着 器 )、342 

consequent . of rule (由 规则 所 敏 的 )，65 

ConsistencySubserEval. 422 

constrained quadratic optimization ( 受 限 的 一 次 优化 )， 
217 


concept representation 


consumer music ( 音乐 制品 )，35S9 
contact lens data (隐形 眼镜 数据 ). 6. 13-15 
continuous attributes (连续 属性 ). 49. See also numeric 
attributes 
continuous monitoring (持续 监视 )、28-29 
converting discrete to numeric attributes (将 离散 转换 为 
BOARTE). 304-305 
convex hull (P443). 171. 216 
Conviction. 420 
Copy. 395 
core package (Mutt). 451.452 
corrected resampled t-test (纠正 重 贫 取样 (测试 )、157 
correlation coefficient ( 关联 系数 )、177-179 
cost curves (AMAHHZR). 173-176 
cost matrix (成 本 知 | 隆 )，164-165 
cost of errors (jR JERK A), 161-176 
bagging (W), 319-320 
cost curves (A HER). 173-176 
cost-sensitive classification (成 本 敏感 分 类 )，164- 
165 
cost-sensitive learning (成 本 敏感 学 习 )、165-166 
Kappa statistic (Kappa 统 计算 )、163-164 
lift charts ( J: Fh). 166-168 
recall-precision curves (反馈 素 - 精 确 率 邮 线 )，171- 
172 
ROC curves (ROC 遇 线 )，168-171 
cost-sensitive classification (成 本 敏感 分 类 ). 164-165 
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CostSensitiveClassifier, 417 
cost-sensitive learning (成 本 敏感 学 习 )，165-166 
cost-sensitive learning in Weka (在 Weka 中 的 成 本 敏感 学 
2J). 417 
co-training (KA VIA). 339-340 
covariance matrix ( 协 方差 矩阵 )，267，307 
coverage, of association rules (种 盖 量 ， 关 联 规则 的 ) 
69 
covering algorithm (2% 87%), 106-111 
cow culling ( 母 牛 选择 )、3-4，37，161-162 
CPU performance data (CPU 性 能 数据 )，16-17 
credit approval (信用 批准 )，22-23 
cross-validated ROC curves (经 交叉 验证 的 ROC 曲 线 )， 
170 
cross-validation ( 交叉 验证 )，149-152，326 
inner (内 部 的 )，286 
outer ( 外 部 的 )，286 
repeated (重复 的 ) .144 
CrossValidationFoldMaker, 428, 431 
CSV format (CSV #%s&). 370, 371 
CSVLoader, 381 
cumulative margin distribution in Weka (Weka 中 的 累积 
WAL A). 458 
curves (#2) 
cost (RA), 173 
lift ( EFH), 166 
recall-precision (反馈 率 -精确 率 )，171 
ROC, 168 
customer support and service (客户 支持 和 服务 )，28 
cutoff parameter (截止 参数 ) 260 
CVParameterSelection, 417 


cybersecurity (计算 机 网 络 安全 )}，29 
D 


dairy farmers ( # Balk iH 4) (New Zealand), 3-4, 
37. 161-162 

data assembly ( 数据 装配 ) 52-53 

data cleaning (数据 清理 )、$2-60. See also automatic 
data cleansing 

data engineering (数据 处 理 ) See engineering input and 
output 

data integration ( 数据 集成 )、52 

data mining (数据 挖掘 )，4-5，9 

data ownership rights (数据 拥有 权 )，35 

data preparation {数据 准备 )、52-60 

data transformation ( 数据 转换 ) See attribute 


transformations 


DataVisualizer, 389, 390, 430 
data warehouse (数据 仓库 )，52-53 
data attributes (数据 属性 )，55 
decision list (决策 列 )，11,67 
decision nodes (决策 节点 )，328 
decision stump (决策 树桩 )，325 
DecisionStump, 407, 453, 454 
decision table (决策 表 )，62，295 
DecisionTable, 408 
decision tree (RBH). 14, 62-65, 97-105 
complexity of induction (归纳 复杂 度 ) 196 
converting to rules (转换 成 规则 )，198 
data cleaning (数据 清理 )，312-313 
error rates ( (#534), 192-196 
highly branching attributes (高 度 分 支 的 属性 )，102- 
105 
missing values (FRMRIA). 63, 191-192 
multiclass case ( 多 类 情形 ) 107 
multivariate (多 元 的 )，199 
nominal attribute (名 词性 属性 )，62 
numeric attribute (数值 属性 )，62，189-191 
partial { 部 分 的 ) 207-210 
pruning (修剪 )，192-193，312 
replicated subtree (重复 子 树 ) 66 
rules (规则 )，198 
subtree raising ( FH EF), 193, 197 
subtree replacement ( 子 树 置换 )、 192-193，197 
three-way split ( 二 叉 分 裂 )，63 
top-down induction ( 自 上 而 下 的 归纳 )，97-105， 
196-198 
two-way split ( 一 又 分裂)，62 
univariate ( 单 变量 的 )，199 
Weka, 406-408 
Weka's User Classifier facility ( Weka 用 户 分 类 工具 )， 
63-65 
Decorate, 416 
deduction (推导 )，350 
default rule (HAM), 110 
degrees of freedom ( fy HÆ), 93, 155 
delta, 311 
dendrograms ( 树 状 图 )，82 
denormalization ( 反 向 正常 化 )，47 
density function ( 密度 图 数 ) 93 
diagnosis (诊断 ) ，25-26 
dichotomy (并 分 法 )，51 
directed acyclic graph (有 向 无 环 图 )，272 
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direct marketing (直销 市 场 )，27 
discrete attributes (离散 属性 )，50. See also nominal 
attributes 
Discretize. 396, 398, 402 
discretizing numeric attributes ( 离散 数值 属性 ) 287, 
296-305 
chi-squared test ( 卡 方 测试 ) 302 
converting discrete to numetic attributes (将 离散 属性 
转换 为 数值 属性 ) 304-305 
entropy-based discretization (3 FHI Bik). 298- 
302 
error-based discretization (基于 -误差 的 离散 )，302- 
304 
global discretization (全 局 离散 )，297 
local discretization ( 局 部 离散 ) 297 
supervised discretization ( 有 指导 离散 )、297-298 
unsupervised discretization ( 无 指导 离散 )，297-298 
Weka，398 
disjunction (3%). 32. 65 
disjunctive normal form ( 析 取 范式 )，69 
distance functions (距离 范 数 )}，128-129，239-242 
distributed experiments in Weka ( Weka 中 的 分 布 式 实验 )， 
445 
distribution ( 4} 47), 304 
distributionForInstance (), 453. 481 
divide-and-conquer (分 治 ) See decision tree 
document classification (X43) Æ), 94-96, 352-353 
document clustering (文件 聚 类 )，353 
domain knowledge ( 领域 知识 ) 20, 33, 349-351 
double-consequent rules (双重 结果 规则 )，118 
duplicate data (重复 数据 )、59 
dynamic programming ( 动态 编程 ) 302 


E 


early stopping ( 提前 停止 )，233 

easy instances ( 易 处 理 实例 )，322 

ecological applications ( 生态 学 领域 的 应 用 程序 )，23,38 

eigenvalue (特征 值 )，307 

eigenvector (特征 向 量 )，307 

Einstein. Albert ( 爱 因 斯 坦 . 艾 伯 特 )，180 

electricity supply (电力 供应 )，24-25 

electromechanical diagnosis application ( 机 电 诊 断 应 用 )， 
144 

11-point averge recall (11 点 平均 反馈 率 )，172 

EM, 418 

EM algorithm (EM 算法 )，265-266 


EM and co-training (EM 和 联合 训练 )，340-341 
EM procedure (EM 程序 ) ,337-338 
embeded machine learning (A AILE), 461-469 
engineering input and output (处 理 输入 和 输出 )，285- 
343 
attribute selection (属性 选择 )，288-296 
combining multiple models (组 合 多 种 模型 )，315- 
336 
data cleansing (数据 清理 )，312-315 
discretizing numeric attributes (离散 数值 属性 )，296- 
305 
unlabeled data (无 标签 数据 )，337-341 
See also individual subject headings 
entity extraction ( 实体 提炼 )，353 
entropy (44), 102 
entropy-based discretization (4% FIKRI% fk), 298-302 
enumerated attributes ( 枚 举 的 属性 ) 50. see also 
nominal attributes 
enumerating the concept space ( 枚 举 概念 空间 )，31-32 
Epicurus ( 伊 壁 鸠 鲁 )，183 
epoch (纪元 )，412 
equal-frequency binning ( 等 频率 装 箱 )，298 
equal-interval binning ( 等 区 间 装 箱 )，298 
equal-width binning (等 宽 装 箱 )，342 
erroneous values (错误 的 值 )，59 
error-based discretization (基于 误差 的 离散 )，302-304 
error-correcting output codes (误差 纠正 输出 编码 )， 
334-336 
error log (错误 日 志 )，378 
error rate (误差 率 ) 
bias (偏差 )，317 
cost of errors (误差 成 本 )，See cost of errors 
decision tree (决策 树 )，192-196 
defined (定义 的 )，144 
training data (训练 数据 ) 145 
“Essay towards solving a problem in the doctrine of 
chances，An”( 一 篇 倾向 于 运用 机 会 学 说 解决 问 
题 的 论文 ) (Bayes)，141 
ethics (道德 规范 )，35-37 
Euclidean distance ( 欧 几 里 得 距离 )，78，128，129， 
237 
evaluation (评估 )，143-185 
bootstrap procedure ( 自 引 导 程 序 )，152-153 
comparing data mining methods (比较 数据 挖掘 方法 ) 
153-157 
cost of errors (误差 成 本 )}，161-176, See also cost of 


errors 





cross-validation ( 交叉 验证 ) 149-152 
leave-one-out cross-validation ( 留 一 交叉 验证 ) 151- 
152 
MDL principal (MDL 原 理 )、179-184 
numeric prediction (数值 预测 )，176-179 
predicting performance (预测 性 能 )，、146-149 
predicting probabilities (预测 概率 )，157-161 
training and testing ( 训练 和 测试 )，144-146 
evaluation (), 482 
evaluation components in Weka (Weka 中 的 评估 组 件 )， 
430, 431 
Evaluation panel, 431 
example problems ( 样 例 问题 ) 
contact lens data (隐形 眼镜 数据 )，6，13-15 
CPU performance data (CPU 性 能 数据 )，16-17 
iris dataset ( 秦 尾 花 数 据 集 )，15-16 
labor negotiations data 《劳资 协商 数据 }，17-18、19 
soybean data (大 豆 数 据 )，18-22 
weather problem (天 气 问题 )，10-12 
exceptions (例外 )，70-73，210-213 
exclusive-or problem ( 异 或 问题 ) 67 
exemplar (样本 ) 
defined (定义 的 }、236 
generalized ( 被 推广 的 ) 238-239 
noisy ( PHERI). 236-237 
redundant ( 重复 的 }，236 
exemplar generalization (样本 推广 )，238-239、243 
ExhaustiveSearch, 424 
Expand all paths, 408 
expectation (#94). 265. 267 
expected error ( 期 望 误 益 ) 174 
expected success rate ( 期 望 成 功率 )，147 
Experimenter ( 实验 者 )，437-447 
advanced panel ( 高 级 面板 )，443-445 
Analyze panel (分 析 面 板 ) ，443-445 
analyzing the results (分 析 结 果 ) 、440-441 
distributing processing over several machines (将 处 理 
过 程 分 布 于 多 个 机 器 )，445-447 
running an experiment (运行 一 个 实验 )，439-440 
simple setup (简单 配置 )，441-442 
starting up (并 始 )、438-441 
subexperiments ( 子 实 验 )，447 
Explorer ( 探索 者 )，369-425 
ARFF, 370, 371, 380-382 
Associate panel, 392 
association-rule learners ( 关联 规则 学 习 器 ) 419-420 
attribute evaluation methods (属性 评估 方法 )，421， 





422-423 

attribute selection (属性 选择 ) 392-393, 420-425 

boosting (提升 ),，416 

classifier errors (分 类 器 误差 )，379 

Classify panel, 384 

clustering algorithms (RKA), 418-419 

Cluster panel, 391-392 

CSV format (CSV), 370, 371 

error log (错误 日 志 )，378 

file format converters (文件 格式 转换 器 )，380-382 

filtering algorithms ( 过滤 算法 ) 393-403 

filter (tte), 382-384 

J4.8, 373-377 

learning algorithms, (“#+]Biy#), 403-414. See also 
learning algorithms 

metalearning algorithms (元 学 习 算法 )，414-418 

models (模型 )，377-378 

panels (面板 )，380 

Preprocess panel, 380 

search methods (##9# AK), 421, 423-425 

Select attributes panel, 392-393 

starting up (JF#4), 369-379 

supervised filters (有 指导 过 滤器 )，401-403 

training / testing learning schemes (训练 /测试 学 习 方 
案 ) 384-387 . 

unsupervised attribute filters (无 指导 属性 过 滤器 ) 
395-400 

unsupervised instance filters (无 指导 实例 过 滤器 ) 

400-401 

User Classifier (用户 自 己 的 分 类 跨 )，388-391 
Visualize panel, 393 

extraction problems (提炼 问题 ) 353, 354 


F 


Fahrenheit (华氏 温度 )，Daniel, 51 
fallback heuristic (后 退 启 发 式 的 )，239 
false negative (FN) (错误 的 否定 ) .162 
false positive (FP) (错误 的 肯定 )，162 
false positive rate (错误 肖 定 率 )，163 
False positive rate, 378 
Familiar, 360 
family tree (家 族 树 )，45 
Tabular representation of (表格 式 排列 )，46 
FarthesFirst, 419 
features ( 属性 ) See attributes 
feature selection ( 属性 选择 )，341. See also attribute selection 
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feedforward networks (前 馈 网 络 )、233 
fielded applications (领域 应 用 )，22 
continuous monitoring ( 持续 监视 )，、28-29 
customer support and service (客户 支持 和 服务 )，28 
cybersecurity (网 络 安全 )，29 
diagnosis ( 诊断 ) 25-26 
ecological applications (生态 领域 的 应 用 )，23，28 
electricity supply (电力 供应 )，24-25 
hazard detection system (危险 探测 系统 )，23-24 
load forecasting (i SPAM). 24-25 
loan application (借贷 应 用 )，22-23 
manufacturing processes ( 制造 工艺 )，28 
marketing and sales ( 市 场 和 销售 ) 26-28 
oil slick detection (原油 泄漏 的 探测 )，23 
preventive maintenance of electromechanical devices 
(预防 性 维护 的 电子 机 械 装置 ) ，25-26 
scientific applications (科学 方面 的 应 用 )、28 
file format converters ( 文件 格式 转换 器 ) 380-382 
file mining (文件 控 搬 )、，49 
filter (过 被 器 )、290 
filter in Weka (Weka 中 的 过 滤器 )、382-384 
FilteredClassifier. 401. 414 
filtering algorithms in Weka (Weka 中 的 过 滤 算 法 ) 
393-403 
sparse instances ( 稀 琉 实例 )、401 
supervised filters (有 指导 过 滤器 )，401-403 
unsupervised attribute filters ( 无 指导 属性 过 滤器 )， 
395-400 
unsupervised instance filters (无 指导 实例 过 滤 
2) .400-401 
filtering approaches (ithik). 315 
filters menu (it ze wA), 383 
finite mixture ( 47M). 262. 263 
FirstOrder. 399 
Fisher. R.A., 15 
flat file EXE), 45 
F-measure (F 测 最 ). 172 
FN (false negatives) (错误 的 省 定 )，162 
folds ( 折 )、150 
forward pruning (1K) 59). 34, 192 
forward selection ( 正 辣 选择 ). 292. 294 
forward stagewise additive modeling (iE mii REYES AU 
WR). 325-327 ° 
Fourier analysis ( {$ 429} 47 #7). 25 
FP (false positives) (错误 的 肯定 )，162 
freedom (自由 )，degrees of ( 度 ) 93, 155 


functional dependencies (图 数 相关 性 )，350 
functions in Weka (Weka 具 有 的 功能 )，404-405，409- 
410 


G 


gain ratio (增益 率 ) 104 

GainRatioAttributeEval, 423 

gambling (赌博 ) 160 

garbage in, garbage out. See cost of errors; data cleaning; 
error rate 

Gaussian-distribution assumption (aiao 41 BIZ), 92 

Gaussian kernel function ( AWA), 252 

generalization as search (以 搜索 为 日 的 概括 )，30-35 

bias (偏差 )，32-35 

enumerating concept space ( 枚 举 概念 空间 )，31-32 

generalized distance functions (经 推广 的 此 离 函数 ) ， 
241-242 

generalized exemplars (经 推广 的 样本 集 )，236 

general-to-specific search bias ( 从 一 般 到 具体 的 搜索 偏 
#E), 34 

genetic algorithms ( 遗传 算法 ) 38 

genetic algorithm search procedures (遗传 算法 搜索 程 
序 )，294，341 

GeneticSearch, 424 

getOptions (), 482 

getting to know your data (认识 数据 }，60 

global discretization (全 局 离散 )，297 

globalinfo (). 472 

global optimization (全 局 优化 )，205-207 

Gosset, William, 184 

gradient descent (梯度 下 降 法 )，227，229，230 

Grading, 417 

graphical models (图 解 模型 )，283 

GraphViewer, 431 

gray bar in margin of textbook (optional sections) (iF 
文 旁边 的 灰 条 (选读 部 分 ))，30 

greedy search ( 贪心 搜索 ) 33 

GreedyStepwise, 423-424 

growing set (AK KK), 202 


H 


Hamming distance (¿X IHRER), 335 
hand-labeled data (手工 标签 数据 ) 338 
hapax legomena (军用 语 )，310 

hard instances (难处 理 的 实例 )，322 





hash table (( fi 3 42). 280 

hazard detection system ( ERR HEMI ASE). 23-24 

hidden attributes { 隐藏 属性 )，、272 

hidden layer (Radel). 226, 231, 232 

hidden units (R&M. JC). 226, 231, 234 

hierarchical clustering (分 级 的 察 类 )、139 

highly-branching attribute ( 尚 度 分 支 的 属性 )，86 

high-performance rule inducers (高 性 能 规则 归纳 器 )， 
188 

histogram equalization ( 直方 图 均衡 化 )，298 

historical literary mystery (历史 文献 之 迹 )}，358 

holdout method (3 Hid). 146. 149-150, 333 

homeland defense (国家 防御 )，357 

HTML, 355 

hypermetrope (远视 )、13 

hyperpipes ( 超 管道 )，139 

Hyperpipes、414 

hyperplane (APF iii). 124, 125 

hyperrectangle ( 4E). 238-239 

hyperspheres ( 超 球面 )，133 

hypertext markup language ( 超 文本 结构 语言 ) (HTML), 
355 

hypothesis testing (测试 假说 )，29 


IBL, 413 
IB3, 237 
IBk, 413 
1D3, 105 
Id3, 404 
identification code (标识 码 }、86、102-104 
implementation—real-world schemes (实现 一 一 真正 的 
方案 ) 187-283 
Bayesian networks ( 贝 叶 斯 网 络 )，271-283 
classification rules (分 类 规则 )，200-214 
clustering〈 聚 类 )，254-271 
decision tree (决策 树 )，189-199 
instance-based (基于 实例 的 )，236-243 
linear models (线性 模型 )、214-235 
implementation—real-world schemes (continued ) 
numeric prediction (数值 预测 )、243-254 
See also individual subject headings 
inaccurate values (不 涉 确 的 值 )，59-60. See also cost of 
errors; data cleaning; error rate 
incremental algorithms ( 递增 算法 )，346 
incrementalClassifier, 434 
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IncrementalClassifierEvaluator, 431 
incremental clustering (RÆ). 255-260 
incremental learning in Weka (人 在 Weka 中 的 递增 学 习 ), 
433-435 
incremental reduced-error pruning (递增 减少 误差 修剪 
法 )，203，205 
independent attributes ( 独立 属性 ) 267 
index ( )，472 
induction (J944), 29 
inductive logic programming (JJS RAF), 48, 60, 
75, 35i 
induct system ( 归纳 系统 )，214 
industrial usage (工业 用 途 ) . See implementation 一 real- 
world schemes 
inferring rudimentary rules (推断 基本 规则 )，84-88 
InfoGainAttributeEval, 422-423 
informational loss function ({#% BHUR AR), 159-160, 
161 
information-based heuristic (基于 信息 的 探索 )，201 
information extraction ( 信息 提炼 )，354 
information gain (f Eig), 99 
information retrieval (信息 检索 )，171 
information value (信息 值 )，102 
infrequent words (不 频繁 的 词 )，353 
inner cross-validation (内 部 交叉 验证 )，286 
input (RRA), 41-60 
ARFF format ( ARFF#% 5), 53-55 
assembling the data (整合 数据 )，52-53 
attribute (属性 )，49-52 
attribute types 【属性 类 型 )，56-57 
concept 《概念 ) 42-45 
data engineering (数据 处 理 )，286-287，288-315. 
See also enginecring input and output 
data preparation (数据 准备 }，52-60 
getting to know your data (了 解数 据 )，60 
inaccurate values (不 正确 的 值 ) ,59-60 
instances (实例 )，45 
missing values (FxiR{A), 58 
sparse data ( RW BCHE), 55-56 
input layer (输入 层 )，224 
instance in Weka ( Weka 中 的 实例 )，450 
instance, 451 
instance-based learning (基于 实例 的 学 习 ) 
136, 235-243 
ball tree (ERA), 133-135 
distance functions (FER pir), 128-129, 239-242 


> 78, 128- 
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finding nearest neighbors ( 寻找 最 近邻 居 )、129-135 
generalized distance functions (经 推广 的 距离 函数 ) ， 
241-242 
generalized exemplars ( 经 推广 的 样本 集 )，236 
kD-tree (k Di) . 130-132 
missing values (残缺 值 )，129 
pruning noisy exemplars ( (#8) FEEL A), 236-237 
redundant exemplars ( 重复 样本 )，236 
simple method (简单 方法 }，128-136，235-236 
weighting attributes ( 加权 属性 )，237-238 
Weka. 413-414 
instance-based learning methods ( 基于 实例 的 学 习 方 法 )， 
291 
instance-based methods ( 基于 实例 的 方法 ) 34 
instance-based representation (基于 实例 的 表达 )，76-80 
instance filters in Weka (Weka 中 的 实例 过 滤器 )，394， 
400-401, 403 
instances (实例 )，45 
Instances, 451 
instance space (实例 空间 )，79 
instance weights ( 实例 权 值 )，166，321-322 
integer-valued attributes ( 整数 值 属 性 ) 49 
intensive care patients (危重 病人 )，29 
interval ( 区间 )、88 
interval quantities (区 介 值 )，5$0-$1 
intrusion detection systems ( 入侵 侦察 系统 )，357 
invertSelection, 382 
in vitro fertilization ( 人 工 受 精 )，3 
iris dataset (iris 数据 集 )，15-16 
iris setosa, 15 
iris versicolor. 15 
iris virginica, 15 
ISO-8601 combined date and time format (ISO-8601 标 准 
日 期 和 时 间 的 组 合 )，55 
item (项 )，113 
item sets (项 集 }、113、114-115 
iterative distance-based clustering (基于 距离 的 碗 代 聚 


X). 137-138 
J 
34.8, 373-377 
J48, 404, 450 


Javadoc indices (Java 文 本 索引 )、456 
JDBC database. 445 
JRip, 409 


junk email filtering (Hy Seah (bit 2). 356-357 


K2, 278 
Kappa statistic (Kappa 统计 量 ) 163-164 
k D-trees (k Dif), 130-132, 136 
Kepler's three laws of planetary motion ( 开 普 勒 的 三 条 行 
星 运 行 定律 )，180 
kernel ( 核 ) 
defined (定义 的 )，235 
perceptron (感知 器 )，223 
polynomial (多 项 式 )，218 
RBF, 219 
sigmoid (SH), 219 
kernel density estimation ( 核 密度 估计 )，97 
kernel logistic regression ( 核 logistic 回归 ) 223 
kernel perceptron ( 核 感知 器 ) 222-223 
k-means (大 均值 )，137-138 
k-nearest-neighbour method (k Bit MATH), 78 
Knowledge Flow interface (知识 流 界 面 )，427-435 
configuring / connecting components (配置 /连接 组 
fE), 431-433 
evaluation components (iF (S41 tE), 430, 431 
incremental learning (递增 学 习 )，433-435 
starting up (开始 )，427 
visualization components (视觉 化 组 件 )，430-431 
knowledge representation (知识 表达 )，61-82 
association rules (XMM), 69-70. See also 
association rules 
classification rules (分 类 规则 )，65-69. See also 
classification rules 
clusters (RÆ), 81-82. See also clustering 
decision table (22432), 62 
decision tree (决策 树 ) 62-65. See also decision tree 
instance-based representation (基于 实例 的 表达 )， 
76-80 
rules involving relations (包含 关系 的 规则 )}，73-75 
rules with exceptions ( 带 有 例外 的 规则 )，70-73 ， 
210-213 
trees for numeric prediction (用 于 数值 预测 的 树 ) ， 
76 
KStar, 413 


L 


labor negotiations data (劳资 协商 数据 ) ，17-18，19 
language bias (语言 偏 益 ) 32-33 
language identification (语言 识别 )，353 





Laplace, Pierre ( 拉 普 拉 斯 )、91 
Laplace estimator ( 拉 普 拉 斯 佑 计 器 )、91，267，269 
large datasets ( 大 型 数据 集 )，346-349 
law of diminishing returns (收益 递减 法 则 )、347 
lazy classifiers in Weka (Weka 中 的 懒惰 分 类 器 )、405， 
413-414 
LBR, 414 
learning (学 习 )，7-9 
learning algorithms in Weka ( Weka 中 的 学 习 算 法 )，403- 
404 
algorithm (H). listed, 404-405 
Bayesian classifier ( 贝 叶 斯 分 类 跨 )，403-406 
functions ( HH). 404-405, 409-410 
lazy classifiers ( 懒惰 分 类 器 ). 405, 413-414 
miscellaneous classifiers ( 杂项 类 分 类 器 )，405，414 
neural network ( 神经 网 络 )、411-413 
rules (规则 )、404、408-409 
trees ( 树 )、404，406-408 
learning rate (“#2)%), 229-230 
least-absolute-error regression (最 小 绝对 误差 回归 )， 
220 
LeastMedSq. 409-410 
leave-one-out cross-validation ( 留 一 交叉 验证 法 )，151- 
152 
levels of measurement (MEt). 50 
level-0 model (0 层 模型 )，332 
level-1 model (1 层 模型 )，332 
Leverage. 420 
Lift, 420 
lift chart ( 上升 图 )，166-168、172 
lift factor ( 上 升 系 数 )、166 
linear classification (线性 分 类 )，121-128 
linearly separable ( afik tE ABAD). 124 
linear machine ( 线性 机 器 )，142 
linear models (线性 模型 )，119-128，214-235 
backpropagation ( fi fal (HR? ), 227-233 
computational complexity ( 计算 复杂 度 )、218 
kernel perceptron ( 核 感 知 器 ) 222-223 
linear classification (线性 分 类 )、121-128 
linear regression 《线性 回归 )、119-121 
logistic regression (logistic 种 归 )，121-125 
maximum margin hyperplane (最 大 边际 超 平面 ) ， 
215-217 
multilayer perceptrons (多 层 感知 器 ) 223-226, 
231.233 
nonlinear class boundaries ( 非 线性 类 边界 ) 217-219 
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numeric prediction (数值 预测 )，119-120 
overfitting (sf EHLA), 217-218 
perceptron (感知 器 )，124-126 
RBF network (RBF 网 络 )，234 
support vector regression (支持 向 量 回归 )，219-222 
Winnow, 126-128 
linear regression ( 线性 回归 )，77，119-121 
LinearRegression, 387, 409 
linear threshold unit (RERE HJE), 142 
listOptions (}, 482 
literary mystery (文献 之 迷 )，358 
LMT, 408 
load forecasting (负载 预测 )，24-25 
loan application (借贷 应 用 )，22-23 
local discretization (局 部 离散 )，297 
locally weighted linear regression ( 局 部 加 权 线 性 回归 )， 
244, 251-253, 253-254, 323 
locally weighted Naive Bayes ( 局 部 加 权 朴 素 贝 叶 斯 )， 
252-253 
Log button (Log#®#). 380 
logic programs (ZAF), 75 
logistic model trees (logistic 模型 树 )，331 
logistic regression (logistic 回归 )，121-125 
LogitBoost, 328, 330, 331 
LogitBoost, 416 
logit transformation ( 对 数 变换 )，121 
log-likelihood ( 对 数 - 似 然 )，122-123，276，277 
log-normal distribution ( 对 数 - 正 态 分 布 )，268 
log-odds distribution ( 对 数 -概率 分 布 )，268 
LWL, 414 


M 


MS' program, 384 

MSP, 408 

MSRules, 409 

machine learning (机 器 学 习 ), 6 

main (), 453 

majority voting ( 多 数 投票 ) 343 
MakeDensityBasedClusterer, 419 
Makelndicator, 396, 398 

makeTree (), 472, 480 

Manhattan metric (曼哈顿 度量 ) 129 
manufacturing processes (生产 过 程 )，28 
margin (322%), 324 

margin curve ( 边 益 曲线 ) ，324 

market basket analysis (购物 链 分 析 )，27 
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market basket data (购物 篮 数据 )，55 
marketing and sales (市 场 和 销售 )，26-28 
Markov blanket ( iR R). 278-279 
Markov network ( 马尔 可 夫 网 络 ) 283 
massive datasets (大 型 数据 集 )，346-349 
maximization (最 大 化 )，265，267 
maximum margin hyperplane (最 大 边际 超 平 面 ) 215- 
217 
maxindex { ), 472 
MDL metric (MDL ff), 277 
MDL principle (MDL 原理 ) 179-184 
mean absolute error (平均 绝对 误差 })，177-179 
mean-squared error ( 均 方 误差 ),，177，178 
measurement errors ( 神 最 误差 )，、59 
membership function (AMX KAM), 121 
memorization (记忆 )，、76 
MergeTwoValues, 398 
merging (4+). 257 
MetaCost. 319, 320 
MetaCost. 417 
metadata (元 数据 )，5$1，349，350 
metadata extraction (元 数据 提炼 ) 353 
metalearner (元 学 习 器 ) 332 
metalearning algorithms in Weka (Weka 中 的 元 学 习 算 
法 )，414-418 
metric tree (MET). 136 
minimum description length (MDL) principle (最 短 描 
RKE), 179-184 
miscellaneous classifiers in Weka ( Weka 中 的 杂项 类 分 
类 器 )，405，414 
missing values (残缺 值 )、58 
classification rules ( 分 类 规则 )，201-202 
decision tree (决策 树 )，63，191-192 
instance-based learning (基于 实例 的 学 习 )，129 
IR. 86 
mixture model (混合 模型 ) 267-268 
model tree ( BiH). 246-247 
Statistical modeling (统计 建 模 )、92-94 
mixed-attribute problem (混合 属性 问题 )，11 
mixture model (混合 模型 )、262-264，266-268 
MLnet, 38 
ModelPerformanceChart, 43} 
model tree (模型 树 ) 76, 77, 243-251 
building the tree (建树 ) ，245 
missing values (残缺 值 )，246-247 
nominal attributes (名 词性 属性 )，246 


pruning (f#89), 245-246 
pseudocode ({4fth]), 247-250 
regression tree induction ( 回归 树 归 纳 )，compared ，， 
243 
replicated subtree problem (复制 子 树 问题 )，250 
rules (规则 )，250-251 
smoothing (平滑 )，244，251 
splitting (分裂 )，245，247 
what is it ( 它 是 什么 )，250 
momentum {动量 )，233 
monitoring, continuous ( 览 测 ， 连 续 的 )，28-29 
MultiBoostAB, 416 
multiclass alternating decision trees, (多 类 交互 式 决 策 树 ) 
329, 330, 343 
MultiClassClassifier , 418 
multiclass learning problems (多 类 学 习 问 题 ) 334 
MultilayerPerceptron, 411-413 
multilayer perceptrons ( 多 层 感知 路 ) 223-226, 231, 
233 
multinomial distribution (多 项 分 布 )，95 
multinomial Naive Bayes ( 多 项 朴素 贝 叶 斯 )，95，96 
multiple linear regression ( 多重 线 性 回归 )，326 
multiresponse linear regression ( 多 反馈 线性 pl| 归 )，121， 
124 
multistage decision property ( 多 级 的 决策 属性 )，102 
multivariate decision trees ( 多 元 决策 树 )，199 
MultiScheme, 417 
myope (近视 )，13 


N 


NaiveBayes (朴素 贝 上 时 斯 )，403，405 
Naive Bayes (朴素 贝 时 斯 )，91，278 
clustering for classification (JH 于 分 类 的 察 类 )，337- 
338 
co-training (联合 训练 )，340 
document ciassification (文件 分 类 )，94-96 
limitations (〈 局限) 96-97 
locally weighted (局 部 加 权 的 )，252-253 
multinomial ( 多 项 的 )，95，96 
power (能 力 )，96 
scheme-specific attribute selection (特定 方案 的 局 性 
选择 )，295-296 
selective (JE PETENS), 296 
TAN (Tree Augmented Naive Bayes) 
KUFR), 279 
what can go wrong (产生 错误 }，91 
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NaiveBayesMultinominal, 405 
NaiveBayesSimple. 403 
NaiveBayesUpdateable, 405 
NBTree, 408 
nearest-neighbor learning (最 近邻 学 习 )， 
136, 235, 242 
nested exceptions ( IENIPISH). 213 
nested generalized exemplars ( 傣 套 推广 样本 集 )，239 
network scoring ( 网络 评 分 )，277 
network security ( 网络 安 全 )、357 
neural networks (神经 网 络 )、39、233、235，253 
neural networks in Weka (Weka 中 的 神经 网 络 )，411- 
413 
n-gram profiles (n-gram XFER), 353, 361 
Nnge, 409 
noise ( THÈ) 
data cleansing (数据 清理 )，312 
exemplars ( 样本 集 )，236-237 
hand-labeled data (手工 标签 数据 ) 338 
robustness of learning algorithm ( 学 习 算 法 的 稳健 度 )， 
306 
noisy exemplars ( 干扰 样本 )，236-237 
nominal attributes ( 名 词性 属性 )，49，50，56-37，119 
Cowweb. 271 
convert to numeric attributes (转换 成 数值 属性 ) ， 
304-305 
decision tree (决策 树 )、62 
mixture model (混合 模型 ) 267 
model tree (模型 树 ).246 
subset (地 集 )，88 
nominal quantities ( 名 词性 值 )，50 
NominalToBinary, 398-399, 403 
non-axis-parallel class boundaries ( 非 轴 平行 类 边界 )， 
242 
Non-Bayesians ( 非 贝 叶 斯 )，141 
nonlinear class boundaries ( 非 线性 类 边界 ) 217-219 
NonSparseToSparse. 401 
normal-distribution assumption (iF 4:4) Rit), 92 
normalization ( 正常 化 )、56 
Normalize, 398. 400 
normalize (). 480 
normalized expected cost (经 正常 化 的 期 望 成 本 )，175 
nuclear family (核心 家 庭 )，47 
null hypothesis ( 零 假 设 )，155 
numeric attribute (数值 属性 )，49，50，56-57 
axis-parallel class boundaries (思平 行 类 边界 }，242 


78-79, 128- 


classification rules (分 类 规则 )，202 
Classit 271 
converting discrete attributes to (将 离散 属性 转换 为 )， 
304-305 
decision tree (决策 树 )，62，189-191 
discretizing (离散 )，296-305. See also Discretizing 
numeric attributes 
instance-based learning (基于 实例 的 学 习 )， 
interval ( 区间)，88 
linear models ( 线性 模型 ) 119 
linear ordering (线性 排序 ) 349 
mixture model (混合 模型 )，268 
IR, 86 
Statistical modeling (统计 建 模 )，92 
numeric-attribute problem (数值 属性 问题 )，11 
numeric prediction (数值 预测 )，43-45，243-254 
evaluation (评估 )，176-179 
forward stagewise additive modeling (小 向 阶段 迭 加 
建 模 )，325 
linear regression (线性 回归 )，119-120 
locally weighted linear regression 《局 部 加 权 线 性 回 
归 )，251-253 
numeric prediction (数值 预测 ) (continued) 
model tree {模型 树 )，244-251. See also model tree 
rules (规则 )，251 
stacking (堆栈 )，334 
trees ( 树 )，76，243 
NumericToBinary, 399 


128, 129 


NumericTransform, 397 


O (n), 196 

O (n°), 196 

Obfuscate, 396, 400 

object editor (RAMA). 366, 381, 393 

Occam's razor ( Occam% /J}), 180, 183 

oil slick detection (777387), 23 

IR procedure (1R EFF), 84-88, 139 

OneR, 408 

OneRAttributeEval, 423 

one-tailed (14), 148 

online documentation ( 在线 文件 )，368 

Open DB, 382 

optimizing performance in Weka (在 Weka 中 优化 性 能 )， 
417 

OptionHandler, 451, 482 
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option nodes (选择 节点 )，328 
option trees (选择 树 )、，328-331 
orderings (排序 ) 
circular (循环 的 )、349 
partial ( 局 部 的 )、349 
order-independent rules ( 顺序 独立 规则 )，67，112 
OrdinalClassClassifier, 418 
ordinal attributes (#7 FR RTE). 51 
ordinal quantities ( 有 序 值 )、50 
orthogonal (1E). 307 
outer cross-validation ( 外 层 交 叉 验 证 )、286 
outliers (PK74). 313, 342 
output ( 输出) 
data engineering (数据 处 理 ) 287-288, 315-341. 
See also engineering input and output 
knowledge representation (知识 表达 )，61-82. See 
also knowledge representation 
overfitting (it HLA). 86 
Bayesian clustering ( UHR RX), 268 
category utility ( 类别 效 用 )，261 
forward stagewise additive regression (iE le} Mr Etik Ju 
回归 )、326 
MDL principle (MDLIRFE), 181 
multilayer perceptrons ( 多 层 感知 器 ) 233 
IR. 87 
statistical tests (统计 测试 )，30 
support vectors (支持 向 量 )，217-218 
overfitting-avoidance bias (避免 过 度 拟 合 偏差 }，34 
overgeneralization ( 过 度 推 广 ). 239. 243 
overlapping hyperrectangles ( EHE). 239 
overlay data ( TÆR). 53 


P 


Pace regression in Weka (Weka 中 的 Pace 回 归 )、410 
PaceRegression. 410 

paired t-test (成 对 的 r Mik). 154, 294 
pairwise classification (成 对 分 类 )，123,410 
pairwise coupling (成 对 合并 )，123 

pairwise plots (成 对 属性 值 坐标 投影 )，60 
parabola (抛物线 ) 240 

parallelization ( 并行 化 )，437 

parameter tuning (参数 调整 ) 286 

Part, 409 

partial decision tree (BBR HH), 207-210 
partial ordering ( 局 部 排序 )，51 

partitioning instance space (分 割 实例 空间 )，79 





pattern recognition (模式 识别 )，39 
Percentage split, 377 
perceptron (感知 器 ) 
defined (定义 的 )，126 
kernel ( 核 )，223 
learning rule (线性 规则 )，124，125 
linear classification (线性 分 类 )，124-126 
multilayer ( 多 层 )，223-226，233 
voted (投票 的 )，223 
perceptron learning rule (感知 器 学 习 规 则 )，124，125 
permutation tests (HEI Mix), 362 
PKIDiscretize, 396, 398 
Poisson distribution (71347 4), 268 
Polygon, 389 
Polyline, 389 
polynomial kernel ( 多项式 核 )，218 
popular music (流行 音乐 )，359 
postal ZIP code (邮政 编码 }，57 
postpruning (后 修剪 )，34,192 
precision (精确 率 )，171 
predicate calculus (谓词 验算 )，82 
predicting performance (预测 性 能 )，146-149. See also 
evaluation 
predicting probabilities (预测 概率 )，、157-161 
PredictionAppender, 431 
prediction nodes (预测 节点 }，329 
predictive accuracy in Weka ( Weka 中 的 预测 正确 率 )， 
420 
PredictiveApriori, 420 
Preprocess panel, 372, 380 
prepruning (Ay (E87), 34,192 
presbyopia (远视 眼 )，13 
preventive maintenance of electromechanical devices ( 预 
防 性 维护 的 电子 机 械 装置 )，25-26 
principal components ( 卡 分 量 ) ，307-308 
PrincipalComponents, 423 
principal components analysis ( 主 分 量 分 析 )，306-309 
principle of multiple explanations ( 多 种 解释 原理 )，183 
prior knowledge ( 先 验 知 识 )，349-351 
prior probability ( 先 验 概率 ) 90 
PRISM，110-111，112. 213 
Prism, 409 
privacy (R), 357-358 
probabilistic EM procedure ( 概率 EM 程序 ) 265-266 
probability-based clustering (基于 概率 的 聚 类 ) ，262- 
265 





probability cost function ( HE AKA HAR). 175 
probability density function (WEAR RR), 93 
programming (编程 ) . See Weka workbench 
programming by demonstration (示范 编程 )、360 
promotional offers 《促销 商品 )、27 
proportional k-interval discretization (均衡 k 区 间 离 散 )， 
298 
propositional calculus ( 命题 演算 ) 73, 82 
propositional rules ( 命题 规则 )，69 
pruning (修剪 ) 
classification rules (分 类 规则 )}. 203. 205 
decision tree (决策 树 )、192-193，312 
massive datasets ( 大 型 数据 集 )、348 
model tree (模型 树 )、245-246 
noisy exemplars ( 干扰 实例 )，236-237 
overfitting-avoidance bias ( 避免 过 度 拟 合 偏 益 )、34 
reduced-error (减少 - 误 关 )、203 
pruning set (修剪 集 )、202 
pseudocode ( {4 ft HS) 
basic rule learner ( 基本 规则 学 刁 器 )，111 
model tree ( 模型 树 )、247-250 
IR, 85 
punctuation conventions (标点 符号 习惯 )，310 


Q 


quadratic losss function ( -次 损失 图 数 )，1$8-1$9，161 
quadratic optimization ( -次 优化 )、217 
Quinlan, J.Ross. 29. 105, 198 


R 


R.R.Donnelly. 28 
RacedincrementalLogitBoosi, 416 
race search (竞赛 搜索 ). 295 
RaceSearch, 424 

radial basis function (RBF) 


kernel ( (2 (a) RR AR), 


219, 234 
radial basis function (RBF) network ( 径 向 基 骨 数 网 络 )， 
234 


RandomCommittee, 415 
RandomForest, 407 

random forest metalearner in Weka, 416 
randomization (随机 化 )，320-321 
Randomize, 400 

RandomProjection, 400 

random projections (随机 投影 )，309 
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RandomSearch, 424 

RandomTree, 407 

Ranker, 424-425 

RankSearch, 424 

ratio quantities (比率 值 )，51 

RBF (Radial Basis Function) kernel ( 径 向 基 核 国 数 )， 


219,314 
RBF (Radial Basis Function) network ( 径 向 基 消 数 网 
络 )，234 


RBFNetwork, 410 

real-life applications ( 实际 应 用 ) . See fielded 
applications 

real-life datasets (现实 生活 中 的 数据 集 )，10 

real-world implementations (真正 实践 中 的 实现 ) . See 
implementation— real-world schemes 

recall ( 反馈 率 )，171 

recall-precision curves (反馈 率 - 精 确 率 曲线 )，171-172 

Rectangle, 389 

rectangular generalizations 〔〈 和 矩形 推广 ) ，80 

recurrent neural networks (循环 神经 网 络 ) 233 

recursion (#844), 48 

recursive feature elimination (递归 属性 消除 )，291， 
341 

reduced-error pruning (减少 -误差 修剪 法 )，194，203 

redundant exemplars ( 重复 实例 )，236 

regression (回归 )，17，76 

RegressionByDiscretization, 418 

regression equation ( 回归 等 式 )，17 

regression tree (回归 树 )，76，77，243 

reinforcement learning (增强 学 习 )，38 

relational data ( 关系 数据 )，49 

relational rules (关系 规则 )，74 

relations ( 关系 )，73-75 

relative absolute error (相对 绝对 误差 )，177-179 

relative error figures (相对 误差 值 )，177-179 

relative squared error (相对 平方 误 益 )，177，178 

RELIEF, 341 

ReliefFAttributeEval, 422 

religious discrimination, illegal (性 别 野 视 ， 非 法 )，35 

remoteEngine.jar, 446 

remote.policy, 446 

Remove, 382 

RemoveFolds, 400 

RemovePercentage, 401 

RemoveRange, 401 

RemoveType, 397 
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Remove Useless, 397 
RemoveWithValues, 401 
repeated holdout (重复 旁 置 )，150 
ReplaceMissing Values. 396, 398 
replicated subtree problem (重复 子 树 问题 )，、66-68 
REPTree, 407-408 
Resample, 400, 403 
residuals (3%). 325 
resubstitution error (重新 代 人 误差 )，145 
Ridor, 409 
RIPPER rule learner, 205-214 
ripple-down rules (ripple-down#@ Ml] ), 214 
robo-soccer (#L# A EER), 358 
robust regression ( 稳健 回归 )，313-314 
ROC curve (ROCH). 168-171, 172 
root mean-squared error (HH HAIR HE), 178, 179 
root relative squared error 《相对 平方 根 误 益 )、178，179 
root squared error measures (平方 根 误差 衡 最 ) 177- 
179 
rote learning (机 械 的 学 习 方 法 )，76，354 
row separation ( 行 分 隔 )，336 
rule (规则 ) 
antecedent ( 前提)、65 
association (关联 }，69-70、112-119 
classification (分 类 ) . See classification rules 
consequent ( 结论) 65 
decision lists (决策 列 )，111-112 
double-consequent (Pa 4818), 118 
exceptions ({#¥P). with, 70-72, 210-213 
good (worthwhile) ( 好 的 (值得 的 ) )，202-205 
nearest-neighbor (最 近邻 )，78-79 
numeric prediction (数值 预测 )，251 
order of (decision list) (( 决 策 列 ) 的 顺序 )，67 
partial decision trees ( 局 部 决策 树 )、207-210 
propositional (命题 的 )，73 
relational (关系 的 )、74 
relations (关系 )}，and，73-75 
single-consequent ( 个 结论 )、118 
trees ( 树 ). and. 107. 198 
Weka, 408-409 
rule-based programming ( 基 了 规则 的 程序 )，82 
rules involving relations (包括 关系 的 规则 )，73-75 
tules with exceptions ( 带 有 例外 的 规则 )，70-73，210- 
213 


S 


sample problems (取样 问题 ) . See example problems 





sampling with replacement ( 放 癌 抽样 )，152 

satellite images, evaluating (卫星 照片 ， 评 估 )，23 

ScatterPlotMatrix, 430 

schemata search (模式 搜索 )，295 

scheme-independent attribute selection (独立 于 方案 的 属 
性 选择 )、290-292 

scheme-specific attribute selection (特定 方案 的 属性 选 
择 )，294-296 

scientific applications (科学 方面 的 应 用 )，28 

scoring networks (评分 网 络 )})，277-280，283 

SDR (Standard Deviation Reduction) (pri žak JÉ), 
245 

search bias (搜索 偏差 )，33-34 

search engine spam (搜索 引擎 垃 圾 )，357 

search methods in Weka ( Weka 中 的 搜索 方法 ) 421, 
423-425 

segment-challenge.arff, 389 

segment-test.arff, 389 

Select attributes panel, 392-393 

selective Naive Bayes (选择 性 的 朴素 贝 时 斯)，296 

semantic relation (ELKA), 349 

semantic Web (语义 网 络 )、355 

semisupervised learning ( 半 指 导 学 习 )，337 

sensitivity (敏感 性 )，173 

separate-and-conquer technique ( 制 治 技术 )，112，200 

sequential boosting-like scheme ( 有 序 的 类 似 提升 的 方 
法 )，347 

sequential minimal optimization (SMO) algorithm ( 连 
续 最 小 优化 算法 )，410 

setOptions (), 482 

sexual discrimination, illegal (性 别 歧 视 ， 韭 法 )，35 

shapes problem ( 儿 何 图 形 问 题 )，73 

sigmoid function (S 形 函数 )，227，228 

sigmoid kernel (S$S 形 核 耳 数 )，219 

Simple CLI, 371, 449, 450 

SimpleKMeans, 418-419 

simple linear regression (简单 线性 回归 )，326 

SimpleLinearRegression, 409 

SimpleLogistic, 410 

simplest-first ordering ( 简单 优先 顺序 ) 34 

simplicity-first methodology (简洁 为 先 的 方法 )，83， 
183 

single-attribute evaluators in Weka (Weka 中 的 单一 属性 
评估 器 ) 421, 422-423 

single-consequent rules (一 -个 结论 的 规则 )，118 

single holdout procedure ( 单 次 旁 置 过 程 )，150 





sister-of-relation ( 姊妹 关系 )、46-47 
SMO. 410 
smoothing (平滑 ) 


locally weighted linear regression (局 部 加 权 线 性 回 
4). 252 
model tree (模型 树 )，244、251 
SMOreg. 410 


software programs (软件 编程 ) . See Weka workbench 
sorting (排序 ) avoiding repeated (避免 重复 )、190 
soybean data ( 大豆 数 据 )，18-22 
spam 《垃圾 邮件 )，356-357 
sparse data ( APHEX). 55-56 
sparse instance in Weka (Weka 中 的 稀 玻 数 据 )，401 
SparseToNonSparse. 401 
specificity (##fik). 173 
specific-to-general search bias (具体 到 一 般 的 搜索 偏差 )、 
34 
splitData (). 480 
splitter nodes (分裂 节点 ).、 329 
splitting (分 裂 ) 
clustering (RX). 254-255, 257 
decision tree (决策 树 ) 62-63 
entropy-based discretization (3& PRAIA), 301 
massive datasets ( 大 型 数据 集 )，347 
model tree (模型 树 )，245，247 
subexperiments( 子 实验 )、447 
surrogate 《代理 }. 247 
SpreadSubsample, 403 
squared-error loss function (平方 误差 损失 函数 )，227 
squared error measures (72 418 2:4 HL). 177-179 
stacked generalization (HEAR AHEJ). 332 
stacking (Efe). 332-334 
Stacking, 417 
StackingC. 417 
stale data ( 失效 的 数据 )、60 
standard deviation reduction (SDR) (标准 益 减 少 值 )， 
245 
standard deviations from the mean (REW FIHA prit 
Ži) 148 
Standardize, 398 
standardizing (标准 化 )、56 
statistical modeling (统计 建 模 )、88-97 
document classification (文件 分 类 )，94-96 
missing values (残缺 值 )、92-94 
normal-distribution assumption ( 下 态 分 布 假设 )，92 
numeric attributes (RUA RHE). 92-94 





359 


statistics (git), 29-30 

Status box ，380 

step functuion. 227, 228 

stochastic algorithms (随机 算法 )，348 

stochastic backpropagation (随机 反 向 传播 )，232 

stopping criterion (停止 标准 )，293，300，326 

stopwords (停止 词 )，310，352 

stratification (4754), 149, 151 

stratified holdout (47> RF ®), 149 

StratifiedRemoveFolds, 403 

stratified cross-validation (分 层 交 叉 验证 )，149 

StreamableFilter, 456 

string attributes ( 字符 串 属性 ) 54-55 

string conversion in Weka ( Weka 中 的 字符 串 转换 ) ，399 

string table ( 字符 表 ) 55 

StringToNominal, 399 

StringToWordVector, 396, 399, 401, 462 

StripChart, 431 

structural patterns (结构 模式 )，6 

structure learning by conditional independence test (采用 
ARE ARES ye =] ). 280 

student's distribution with k - 1 degrees of freedom (自由 
度 为 k-1 的 学 生 氏 分 布 )，155 

student's t-test (FÆR WÑ), 154, 184 

subexperiments ( FRIE), 447 

subsampling in Weka (Weka 中 的 子 采 样 )，400 

subset evaluators in Weka ( Weka 中 的 子 集 评估 路 )，421 ， 
422 

subtree raising ( -了 树 上 升 )，193，197 

subtree replacement ( 子 树 置 换 )，192-193，197 

success rate (成 功率 )、173 

supervised attribute filters in Weka ( Weka 中 有 指导 属性 
过 滤器 )，402-403 

supervised discretization ( 有 指导 离散 )，297，298 

supervised filters in Weka (Weka 中 的 有 指导 过 滤器 )， 
401-403 

supervised instance filters in Weka ( Weka 中 有 指导 实例 
过 滤器 )，402，403 

supervised learning ( 有 指导 学 习 )，43 

support (支持 )，69，113 

support vector (支持 向 最 )，216 


support vector machine (支持 向 量 机 )，39，188，214， 
340 

support vector machine (SVM) classifier (支持 向 量 机 
分 类 器 )，341 


support vector machines with Gaussian kernels (使 用 高 
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BRRR KFT] HL), 234 
support vector regression ( 支持 问 最 回归 )，219-222 
surrogate splitting (代理 分 裂 )、247 
SVMAttributeEval, 423 
SVM classifier (Support Vector Machine) (SVM 分 类 

器 (支持 向 量 机 ))，341 
SwapValues. 398 
SymmetricalUncertAttributeEval, 423 
symmetric uncertainty ( 对 称 不 定性 )，291 
systematic data errors ( 系统 数据 错误 )，59-60 


T 


tabular input format. 119 
TAN (Tree Augmented Naïve Bayes) (WHP REEI 


nt). 279 
television preferences / channels ( 受 欢迎 的 电视 频道 )， 
28-29 


tenfold cross-validation (10 折 交叉 验证 )，150，151 

Tertius, 420 

test set (MRE). 145 

TestSetMaker, 431 

text mining ( X APE HR). 351-356 

text summarization (文本 归纳 ). 352 

text to attribute vectors ( 从 文本 到 属性 向 量 )，309-311 

TextViewer. 430 

TF x IDF. 311 

theory (FAYE). 180 

threat detection systems (威胁 侦察 系统 )，357 

3-point average recall (3 点 平均 反馈 率 )，172 

threefold cross-validation (3 折 交 又 验证 )，150 

ThresholdSelector, 418 

time series (APE) FE] ). 311 

TimeSeriesDelta, 400 

TimeSeriesTranslate, 396, 399-400 

timestamp (f(a) BR). 311 

TN (True Negatives) ( ERJA Æ). 162 

tokenization. 310 

tokenization in Weka. 399 

top-down induction of decision trees ( 自 上 而 下 的 决策 
树 归纳 )、105 

toSource () 453 

toString (). 453, 481, 483 

toy problems (玩具 问题 ) . See example problems 

TP (True Positives) ( 止 确 的 肯定 )，162 

training and testing ( 训练 和 测试 )、144-146 

training set (训练 集 )，296 


TrainingSetMaker, 431 
TrainTestSplitMaker, 431 
transformations (转换 ) . See attribute transformations 
transforming a multiclass problem into a two-class one 
(将 多 类 问题 转换 为 2 类 问题 , 334-335 
tree ( 树 ) 
AD (All Dimensions), 280-283 
alternating decision (2% HK), 329, 330, 343 
ball (BR), 133-135 
decision (决策 ) . See decision tree 
logistic model (logistic 模型 )，331 
metric (度量 )，136 
model (模型 )，76，243. See also model tree 
numeric prediction (数值 预测 )，76 
option (选择 ) 328-331 
regression (回归 )，76，243 
Tree Augmented Naive Bayes (TAN) 
贝 叶 斯 ) 279 
tree classifier in Weka ( Weka 中 的 树 分 类 器 ) 404, 
406-408 
tree diagrams (fH), 82 
Trees (subpackages). 451, 453 
Tree Visualizer, 389. 390 
true negative (TN) (正确 的 在 定 )、162 
true positive (TP) (正确 的 肯定 )，162 
true positive rate ( 目 确 肯定 率 )，162-163 


True positive rate, 378 


( 树 扩 展 型 朴素 


t-statistic, 156 

t-test (i 测试)，154 

TV preferences/channels ( 受 欢迎 的 电视 频道 )，28-29 
two-class mixture model ( 二 类 混合 模型 )、264 
two-class problem ( 二 类 问题 )，73 

two-tailed test (双边 测试 ) 156 

two-way split ( 一 又 分 裂 )、63 

typographic errors ( 印 出 错误)，59 


U 


ubiquitous data mining (无 处 不 在 的 数据 挖掘 )，358- 
361 

unacceptable contracts ( 不 能 接受 的 合同 )，17 

Unclassified instances, 377 

Undo, 383 

unit (单元 )、224 

univariate decision tree ( 单 变量 决策 树 )，199 

universal language (通用 语言 )，32 

unlabeled data (无 标签 数据 )，337-341 





clustering for classification (用 于 分 类 的 诊 类 )，337 
co-training (联合 训练 ). 339-340 
EM and co-training (EM 和 联合 训练 )，340-341 
unmasking (H). 358 
unsupervised attribute filters in Weka (Weka 中 无 指导 属 
HELIER). 395-400 
unsupervised discretization ( 无 指导 离散 )，297-298 
unsupervised instance filters in Weka ( Weka 中 无 指导 实 
例 过 滤器 )，400-401 
unsupervised learning ( 无 指导 学 习 )、84 
UpdateableClassifier. 456, 482 
UpdateClassifier ( ). 482 
User classifier (用户 自 己 的 分 类 器 )、63-65，388-391 
UserClassifier, 388 
user interfaces (JHE! tify). 367-368 
Use training set. 377 
utility (效用 )，category ( ##ll). 260-262 


V 


validation data ( 验证 数据 )，146 

variance ( 方 关 )、154、317 

Venn diagram ( Venn[¥}). 81 

very large datasets (大 型 数据 集 )、346-349 

“Very simple classification rules perform well on most 
commonly used datasets”(Holte) (简单 的 分 类 
规则 在 多 数 通 用 的 数据 集 上 表现 突出 )，88 

VFI, 414 

visualization components in Weka (weka 中 的 可 视 化 组 
件 )，430-431 

Visualize classifier errors. 387 

Visualize panel, 393 

Visualize threshold curve, 378 

Vote, 417 

voted perceptron (投票 感知 器 ) 223 

VotedPerceptron. 410 

voting ($). 315. 321. 347 

voting feature intervals (Be 2 HELIX tH] ). 136 


W 
weak learners (997#-] 4). 325 
weather problem example ( 大气 问题 实例 )、10-12 
association rules for (…… 的 关联 规则 )，115-117 
attribute space for (…… 的 属性 空间 ) 292-293 


as a classification problem ( 作为 一 个 分 类 问题 ) 42 
as a clustering problem (作为 -个 聚 类 问题 )，43-44 
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converting data to ARFF format (将 数据 转换 为 ARFF 
文件 格式 )，370 
cost matrix for (=> 的 成 本 矩阵 ) 457 
evaluating attributes in (评估 …… 的 属性 )，85-86 
infinite rules for ( 有 限 的 规则 )，30 ' 
item sets (MÆ), 113-115 
as a numeric prediction problem (作为 一 个 数值 预测 
问题 )，43-44 ~; 
web mining (网 络 挖 据 )，355-356 
weight decay ( 权 误 减 )，233 
weighted instances ( 加 权 实 例 )，252 
WeightedInstancesHandler, 482 
weighting attributes ( 属性 加 权 ) 237-238 
weighting models (模型 加 权 )，316 
weka.associations, 455 
weka.attributeSelection, 455 
weka.classifiers, 453 
weka.classifiers.bayes.naiveBayesSimple, 472 
weka.classifiers.Classifier, 453 
weka.classifiers.lazy1BI, 472 
weka.classfiers.lazy.IBk, 482, 483 
weka.classifiers.rules.Prism, 472 
weka.classifiers.trees, 453 
weka.classifiers.trees.ld3, 471, 472 
weka.clusterers, 455 
weka.core. 451, 452, 482-483 
weka.estimators, 455 
weka. filters, 455 
weka workbench (Weka 工 作 平 台 )，365-483 
class hierarchy (M4), 471-483 
classifiers (4724), 366, 471-483 
command-line interface (命令 行 界面 )， 
See also command-line interface 
elementary learning schemes (基本 学 局 方案 )，472 
embedded machine learning (fRAXHLA4#-]), 461- 
469 
example application 
示范 程序 (将 文本 文件 划分 为 两 个 
ER), 461-469 
Experimenter (2243 %), 437-447 
Explorer (探索 者 )，369-425. See also Explorer 
implementing classifiers (4>2% 2). 471-483 
introduction (4728), 365-368 
Knowledge Flow interface ( 知识 流 界面 ) 427-435 
neural-network GUI (神经 网 络 图 形 用 户 界面 )，411 
object editor ( 对 象 编 辑 器 ) 366 


449-459. 


(classify text files into two 


categories ) 
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online documentation ( 在线 文 本 )，368 
user interfaces ( MARE), 367-368 
William of Occam, 180 
Winnow, 410 
Winnow algorithm (Winnow 算法 ) 126-128 
wisdom, defined ( 智慧， 定义 ) 37 
Wolpert, David, 334 
word conversions {单词 转换 )，310 
World Wide Web mining (网 络 控 拨 ) 354-356 
wrapper (t14), 290, 341, 355 
wrapper induction (包装 归纳 )，355 
WrapperSubsetEval, 422 


writing classifiers in Weka (在 Weka 中 编写 分 类 器 )， 
471-483 


Z 


0-1 loss function (0-1 AB). 158 

0.632 bootstrap ( 自 引导 法 )，152 

IR method ( 单 规则 方法 ) 84-88 

zero-frequency problem ( 零 频率 问题 )，160 

zero point, inherently defined (零点 ， 内 在 定义 )，51 
ZeroR, 409 

ZIP code (邮编 )，57 


